Charles Explorer logo
🇨🇿

Hluboké vícejazyčné zarovnání křížových vět

Publikace na Matematicko-fyzikální fakulta |
2018

Abstrakt

Paralelní dvojjazyčné korpusy v souladu s větou jsou hlavním a někdy jediným požadovaným zdrojem pro výuku systémů pro překlad statistických a neurálních strojů (SMT, NMT). Navrhujeme koncovou hlubokou neuronovou architekturu pro jazykové nezávislé zarovnání vět.

Kromě zarovnání typu "one-to-one" může náš zarovnávač také provádět cross-a many-to-many alignment. Předkládáme také případovou studii, která ukazuje, jak může výrazná jazyková analýza výrazně zlepšit výkon čisté neuronové sítě.

V souboru Europarl korpus (Koehn, 2005) a anglicko-perského korpusu (Pilevar et al., 2011) jsme použili tři páry jazyků pro vytvoření souhrnu dat. Pomocí této datové sady jsme testovali náš systém jednotlivě a v systému SMT.

V obou nastaveních jsme dosáhli výrazně lepších výsledků ve srovnání s výchozími zdroji open source.