Základní rámec zpětnovazebního učení
Tabulkové metody
- Dynamické programování
- Monte Carlo metody
- Temporal-difference metody
- N-krokový bootstrapping
Functionální aproximace
Hluboké Q sítě
Policy gradient metody
- REINFORCE
- REINFORCE with baseline
- Actor-critic
- Trust Region Policy Optimization
- Proximal Policy Optimization
Doména spojitých akcí
- Deep Deterministic policy gradient
- Twin Delayed Deep Deterministic policy gradient
Prohledávání Monte Carlo tree search
- AlphaZero architektura
Algoritmy využívající modely
- MCTS s natrénovaným modelem
Částečně pozorovatelná prostředí
Optimalizace diskrétních proměnných
V posledních letech došlo ke zkombinování zpětnovazebního učení a hlubokých neuronových sítí, což umožnilo vytvoření agentů s nadlidskou výkonností (kupříkladu pro šachy, go, Dota2 či StarcraftII, schopných natrénovaní pouze z her „sám se sebou“), algoritmů pro řízení chlazení datacenter o 50% efektivnější než lidští operátoři, nebo vylepšeného strojového překladu. Cílem přednášky je seznámení se zpětnovazebním učením využívajícím hluboké neuronové sítě, se zaměřením jak na teorii, tak na skutečnou implementaci.