K rozumně velkým modelům Tranformer pro neuronový strojový překlad pracující na úrovni znaků pomocí dotrénování podslovních modelů

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Aplikace architektury Transformeru na úrovni znaků obvykle vyžaduje velmi hluboké architektury, které se obtížně a pomalu trénují. V článku ukazujeme, že předtrénováním podslovního modelu a jeho finetuningem na znaky můžeme získat kvalitní model pro neuronový strojový překlad, který funguje na úrovni znaků bez nutnosti tokenizace vstupu.

Používáme pouze základní šestivrstvou architekturu Transformer Base. Naše modely na úrovni znaků lépe zachycují morfologické jevy a vykazují větší odolnost vůči šumu za cenu poněkud horší celkové kvality překladu.

Naše studie je tak významným krokem ke kvalitním a snadno trénovatelným modelům, které modelují překlad na útrovni znaků a zároveň nejsou extrémně velké.

Klíčová slova

rozumně velkým modelům tranformer neuronový strojový překlad pracující úrovni znaků pomocí dotrénování podslovních modelů