Tipy na trénování modelu Transformer

Publikace na Matematicko-fyzikální fakulta |

2018

Abstrakt

Tento článek popisuje naše experimenty s neuronovým strojovým překladem pomocí frameworku Tensor2Tensoru a modelu Transformer (Vaswani a kol., 2017). Zkoumáme některé kritické parametry, které ovlivňují kvalitu překladu, paměťovou náročnost, stabilitu trénování a délku trénování.

Každý experiment uzavíráme souborem doporučení. Krom jiného zkoumáme škálování na více GPU a poskytujeme praktické tipy pro vylepšené trénování týkající se velikosti dávky, rychlosti učení, počtu zahřívacích kroků, maximální délky věty a průměrování modelů.

Doufáme, že naše pozorování umožní ostatním výzkumníkům dosáhnout lepších výsledků vzhledem k jejich specifickým hardwarovým a datovým omezením.

Klíčová slova

tipy trénování modelu transformer