Charles Explorer logo
🇨🇿

Sytsém LMU Mnichov soutěž WMT20 v překladu s velmi málo paralelními daty

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Představujeme naše systémy pro WMT20 Very Low Resource MT Task k překladu mezi němčinou a hornolužickou srbštinou. Pro trénink našich systémů generujeme syntetická data zpětným i dopředným překladem.

Trénvací data navíc obohacujeme o německo-české překlady z češtiny do hornolužické srbštiny pomocí neřízeného statistického MT systému, který obsahuje ortograficky podobné slovní dvojice a transliterace slov mimo slovník. Náš nejlepší překladový systém mezi němčinou a srbštinou je založen na transferu modelu z česko-německého systému a má o 12 až 13 BLEU vyšší skóre než základní systém vytvořený pouze s využitím dostupných paralelních dat.