Charles Explorer logo
🇨🇿

Hluboké zpětnovazební učení

Předmět na Matematicko-fyzikální fakulta |
NPFL122

Sylabus

Základní rámec zpětnovazebního učení

Tabulkové metody

- Dynamické programování

- Monte Carlo metody

- Temporal-difference metody

- N-krokový bootstrapping

Functionální aproximace

Hluboké Q sítě

Policy gradient metody

- REINFORCE

- REINFORCE with baseline

- Actor-critic

- Trust Region Policy Optimization

- Proximal Policy Optimization

Doména spojitých akcí

- Deep Deterministic policy gradient

- Twin Delayed Deep Deterministic policy gradient

Prohledávání Monte Carlo tree search

- AlphaZero architektura

Algoritmy využívající modely

- MCTS s natrénovaným modelem

Částečně pozorovatelná prostředí

Optimalizace diskrétních proměnných

Anotace

V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření agentů s nadlidskou výkonností (kupříkladu pro šachy, go, Dota2 či StarcraftII, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na skutečnou implementaci.