Charles Explorer logo
🇨🇿

Efektivní znovuvyužití starých modelů napříč jazyky pomocí transferového učení

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Nedávný pokrok v neuronovém strojovém překladu směřuje k větším sítím trénovaným na stále větším množství hardwarových zdrojů. V důsledku toho jsou modely NMT nákladné na trénování, a to jak finančně, kvůli nákladům na elektřinu a hardware, tak ekologicky, kvůli uhlíkové stopě.

Zvláště to platí v transferu znalostí při trénování modelu "rodiče" před přenesením znalostí do požadovaného modelu "dítě". V tomto článku navrhujeme jednoduchou metodu opakovaného použití již natrénovaného modelu pro různé jazykové páry, u nichž není nutné upravovat modelovou architekturu.

Náš přístup nepotřebuje samostatný model pro každou zkoumanou dvojici jazyků, jak je to typické v rámci přenosového učení u neuronového strojového překladu. Abychom ukázali použitelnost naší metody, recyklujeme model Transformeru, který natrénovali jiní vyzkumníci a použijeme ho pro různé jazykové páry.

Naše metoda dosahuje lepší kvality překladu a kratších časů konvergence, než když trénujeme z náhodné inicializace.