Charles Explorer logo
🇨🇿

Anglicko-český systém pro WMT19: Transformer na úrovni dokumentů

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Článek popisuje CUNI NMT systémy pro překlad z angličtiny do češtiny zaslané na WMT 2019 News Translation Shared Task. Systémy jsou založené na architektuře Transformer a její implementaci ve frameworcích Tensor2Tensor (T2T) a Marian.

Snahou bylo zlepšit adekvátnost a koherenci přeložených dokumentů rozšířením kontextu na zdrojové a cílové straně. Namísto překladu izolovaných vět překládají popisované systémy potenciálně překrývající se vícevětné segmenty.

V případě T2T implementace dosahuje takto trénovaný systém oproti systému trénovaném na izolovaných větách vylepšení +0.6 BLEU (p < 0.05). Poloautomatická analýza lexikální koherence odhalila jen málo příkladů, kde systém s větším kontext opravil chybu systému překládajíchího izolované věty.