Doménová adaptace dokumentového neuronového strojového překladu v IWSLT19

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

Popisujeme naše čtyři systémy neuronového strojového překladu (NMT), které jsme odeslali do shared tasku IWSLT19 pro anglicko-český překlad TED Talks. Cílem této studie je porozumět interakcím mezi NMT na úrovni dokumentů a doménovou adaptací.

Všechny naše systémy jsou založeny na modelu Transformer implementovaném ve frameworku Tensor2Tensor. Dva ze systémů slouží jako baseline a nejsou přizpůsobeny doméně TED Talks: SENTBASE je trénován na jednotlivých větách, DOCBASE na vícevětných (document-level) sekvencích.

Další dva předložené systémy jsou přizpůsobeny doméně TED Talks: SENTFINE je adaptován na jednotlivých větách, DOCFINE na vícevětných sekvencích. Představujeme jak automatické metrické hodnocení, tak manuální analýzu kvality překladu se zaměřením na rozdíly mezi těmito čtyřmi systémy.

Klíčová slova

doménová adaptace dokumentového neuronového strojového překladu iwslt19