Ucelený strojový překlad s lexikálními omezeními pro mofrologicky bohaté jazyky

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Lexikálně omezený strojový překlad umožňuje uživateli manipulovat s výstupní větou vynucením přítomnosti nebo nepřítomnosti určitých slov a frází. Přestože současné přístupy dokáží vynutit, aby se v překladu objevily specifikované termíny, často se snaží, aby povrchová forma omezeného slova souhlasila se zbytkem vygenerovaného výstupu.

Ruční analýza ukazuje, že 46% chyb ve výstupu základního omezeného modelu překladu z angličtiny do češtiny souvisí s gramatickou shodou. Zkoumáme mechanismy, které umožňují neuronových strojový překlad k určení správné inflexe omezujících slov specifikovaných pomocí lemmat.

Zaměřujeme se zejména na metody založené na tréninku modelu s omezeními, které jsou součástí vstupu. Naše experimenty na anglicko-českém jazykovém páru ukazují, že tento přístup zlepšuje překlad s omezením pomocí termínů a to jak v automatickém i ručním hodnocení, snížením počtu chyb v gramatické shodě.

Náš přístup tak odstraňuje inflexní chyby, aniž by zaváděl nové chyby nebo snižoval celkovou kvali

Klíčová slova

ucelený strojový překlad lexikálními omezeními mofrologicky bohaté jazyky