Charles Explorer logo
🇨🇿

Doménová adaptace dokumentového neuronového strojového překladu v IWSLT19

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Popisujeme naše čtyři systémy neuronového strojového překladu (NMT), které jsme odeslali do shared tasku IWSLT19 pro anglicko-český překlad TED Talks. Cílem této studie je porozumět interakcím mezi NMT na úrovni dokumentů a doménovou adaptací.

Všechny naše systémy jsou založeny na modelu Transformer implementovaném ve frameworku Tensor2Tensor. Dva ze systémů slouží jako baseline a nejsou přizpůsobeny doméně TED Talks: SENTBASE je trénován na jednotlivých větách, DOCBASE na vícevětných (document-level) sekvencích.

Další dva předložené systémy jsou přizpůsobeny doméně TED Talks: SENTFINE je adaptován na jednotlivých větách, DOCFINE na vícevětných sekvencích. Představujeme jak automatické metrické hodnocení, tak manuální analýzu kvality překladu se zaměřením na rozdíly mezi těmito čtyřmi systémy.