Tento článek popisuje naše experimenty s neuronovým strojovým překladem pomocí frameworku Tensor2Tensoru a modelu Transformer (Vaswani a kol., 2017). Zkoumáme některé kritické parametry, které ovlivňují kvalitu překladu, paměťovou náročnost, stabilitu trénování a délku trénování.
Každý experiment uzavíráme souborem doporučení. Krom jiného zkoumáme škálování na více GPU a poskytujeme praktické tipy pro vylepšené trénování týkající se velikosti dávky, rychlosti učení, počtu zahřívacích kroků, maximální délky věty a průměrování modelů.
Doufáme, že naše pozorování umožní ostatním výzkumníkům dosáhnout lepších výsledků vzhledem k jejich specifickým hardwarovým a datovým omezením.