Statistický strojový překlad

Předmět na Matematicko-fyzikální fakulta |

NPFL087

Sylabus

Metriky kvality strojového překladu (lidské i automatické). Empirické intervaly spolehlivosti a důvěryhodnost metrik obecně.

Překlad jako problém z teorie informace. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání ("dekódování"), frázový překlad. Volně šiřitelný překladový systém Moses.

Úvod do neuronového strojového překladu (NMT): přímý model pravděpodobnosti překladu, podslovní jednotky, embedingy, model sequence-to-sequence. Volně šiřitelné systémy jako Neural Monkey, Nematus,

OpenNMT, Marian.

Paralelní texty, jejich zarovnání (po větách a slovech; IBM modely 1 až 3). Volně šiřitelné nástroje pro přípravu a zarovnání paralelních textů (hunalign, GIZA++).

Podrobnosti NMT: attention v modelu sequence-to-sequence, self-attention.

Optimalizace: hledání parametrů log-lineárního modelu (Minimum Error Rate Training, MERT). Specifika trénování NMT.

Rozšířené modely NMT: multi-task training, mnohojazyčný překlad, multi-modální překlad.

Využití tvarosloví: morfologické předzpracování, využití tvaroslovné informace ve frázovém a neuronovém překladu.

Složková syntax ve strojovém překladu, překlad založený na parsingu, obecné prohledávání hypergrafu hypotéz.

Povrchová a hloubková závislostí syntax ve strojovém překladu včetně tektogramatické roviny a TectoMT.

Kombinace hloubkového a frázového překladu.

Prezentace vlastních příspěvků.

Vlastní příspěvky a klasifikace:

Jednotlivci či dvou až tříčlenné skupinky studentů si v rané fázi semestru zvolí téma příspěvku, provedou experimenty, implementují vlastní modifikaci některého z existujících systémů překladu či zprovozní prototyp alternativní metody a poreferují o výsledcích.

Cvičení k předmětu je určeno jak pro vedené procvičovaní probraných témat, tak pro konzultace k vlastním příspěvkům studentů.

Závěrečné hodnocení studentů se kromě ověření znalosti probrané látky opírá zejména o vlastní příspěvek studenta: jeho odborný popis a prezentaci.

Anotace

Účastníci semináře se podrobně seznámí s metodami strojového překladu (machine translation, MT) založenými na automatickém zpracování (velkého) množství trénovacích dat a rovněž s existujícími volně šiřitelnými implementacemi těchto metod. Probereme jak širokou škálů přístupů organizovanou podle dvou hlavních kritérií: hloubka lingvistické anotace (lingvisticky neinformovaný přístup, využití tvarosloví, povrchové a hloubkové větné skladby) a hloubka metod strojového učení (klasický statistický přístup, který překládá větu po částech, a neuronový přístup, který modeluje celou úlohu naráz).