Charles Explorer logo
🇨🇿

Systémy Univerzity Karlovy pro soutěž ve strojovém překladu při nedostatku paralelních dat WMT20

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Tento článek představuje popis soutěžních systémů Univerzity Karlovy pro úlohu WMT20 ve strojovém překladu mezi němčinou a lužickou srbštinou při nedostatku dat. Provedli jsme experimenty s trénováním na syntetických datech a předtrénováním na příbuzných jazykových párech.

V plně neřízeném režimu jsme dosáhli 25,5 a 23,7 BLEU při překladu z a do lužické srbštiny. Ve volnějším režimu jsme použili transfer learning z německo-českých paralelních dat a dosáhli 57,4 BLEU a 56,1 BLEU, což je zlepšení o 10 BLEU bodů oproti baseline natrénované pouze na malém množství dostupných německo-lužickosrbských paralelních vět.