Problémy s daty při strojovém překladu z angličtiny do hindštiny

Publikace na Matematicko-fyzikální fakulta |

2010

Abstrakt

Statistický strojový překlad do morfologicky bohatších jazyků je obtížná úloha, a to tím více, jestliže se zdrojový a cílový jazyk liší pořádkem slov. Nejlepší současné systémy proto neprodukují optimální výsledky.

Mnohdy pomůže přidat paralelní data; pokud to nepomůže, může to být způsobeno různými problémy jako rozdílné domény, špatné párování slov nebo šum v nových datech. V tomto článku vyhodnocujeme úlohu strojového překladu z angličtiny do hindštiny z této datové perspektivy.

Probíráme několik existujících zdrojů paralelních dat a poskytujeme výsledky křížových testů nad kombinacemi korpusů s použitím dvou volně dostupných statistických překladových systémů. Spolu s analýzou chyb také prezentujeme nový nástroj pro prohlížení spárovaných korpusů, díky čemuž je snadnější objevit problematické či obtížné pasáže v textech i pro vývojáře, který neovládá cílový jazyk překladu.

Klíčová slova

problémy daty strojovém překladu angličtiny hindštiny