Aplikace architektury Transformeru na úrovni znaků obvykle vyžaduje velmi hluboké architektury, které se obtížně a pomalu trénují. V článku ukazujeme, že předtrénováním podslovního modelu a jeho finetuningem na znaky můžeme získat kvalitní model pro neuronový strojový překlad, který funguje na úrovni znaků bez nutnosti tokenizace vstupu.
Používáme pouze základní šestivrstvou architekturu Transformer Base. Naše modely na úrovni znaků lépe zachycují morfologické jevy a vykazují větší odolnost vůči šumu za cenu poněkud horší celkové kvality překladu.
Naše studie je tak významným krokem ke kvalitním a snadno trénovatelným modelům, které modelují překlad na útrovni znaků a zároveň nejsou extrémně velké.