Charles Explorer logo
🇨🇿

Doménová adaptace statistického strojového překladu s doménově specifickým stahováním data z webu

Publikace na Matematicko-fyzikální fakulta |
2015

Abstrakt

V tomto článku se zabýváme problémem doménové adaptace statistického strojového překladu (SMT) s využitím doménově specifických dat získaných cíleným prohledáváním (crawling) v Internetu. Navrhujeme a empiricky vyhodnocujeme proces automatického získávání jednojazyčných a paralelních textů, stejně jako jejich využití v trénování, optimalizaci i testování v rámci frázového SMT.

Navrhujeme strategii, jak tyto zdroje využít v závislosti na jejich dostupnosti a množství, která ja podpořena výsledky rozsáhlé evaluace. Ta byla provedena v doménách legislativy pro životní prostředí a práci, ve dvou jazykových párech (angličtina-francouzština a angličtina-řečtina) a v obou směrem: z angličtiny i do angličtiny.

Obecně lze tvrdit, že systémy SMT trénované a optimalizované na datech z obecné domény na specifických doménách dosahují špatných výsledků. Ukazujeme, že takové systémy lze úspěšně adaptovat optimalizací parametrů modelu s využitím malého množství paralelních dat z cílové domény, a dále je lze zlepšit p