Metriky kvality strojového překladu (lidské i automatické). Empirické intervaly spolehlivosti a důvěryhodnost metrik obecně.
Překlad jako problém z teorie informace. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání ("dekódování"), frázový překlad. Volně šiřitelný překladový systém Moses.
Úvod do neuronového strojového překladu (NMT): přímý model pravděpodobnosti překladu, podslovní jednotky, embedingy, model sequence-to-sequence. Volně šiřitelné systémy jako Neural Monkey, Nematus,
OpenNMT, Marian.
Paralelní texty, jejich zarovnání (po větách a slovech; IBM modely 1 až 3). Volně šiřitelné nástroje pro přípravu a zarovnání paralelních textů (hunalign, GIZA++).
Podrobnosti NMT: attention v modelu sequence-to-sequence, self-attention.
Optimalizace: hledání parametrů log-lineárního modelu (Minimum Error Rate Training, MERT). Specifika trénování NMT.
Rozšířené modely NMT: multi-task training, mnohojazyčný překlad, multi-modální překlad.
Využití tvarosloví: morfologické předzpracování, využití tvaroslovné informace ve frázovém a neuronovém překladu.
Složková syntax ve strojovém překladu, překlad založený na parsingu, obecné prohledávání hypergrafu hypotéz.
Povrchová a hloubková závislostí syntax ve strojovém překladu včetně tektogramatické roviny a TectoMT.
Kombinace hloubkového a frázového překladu.
Prezentace vlastních příspěvků.
Vlastní příspěvky a klasifikace:
Jednotlivci či dvou až tříčlenné skupinky studentů si v rané fázi semestru zvolí téma příspěvku, provedou experimenty, implementují vlastní modifikaci některého z existujících systémů překladu či zprovozní prototyp alternativní metody a poreferují o výsledcích.
Cvičení k předmětu je určeno jak pro vedené procvičovaní probraných témat, tak pro konzultace k vlastním příspěvkům studentů.
Závěrečné hodnocení studentů se kromě ověření znalosti probrané látky opírá zejména o vlastní příspěvek studenta: jeho odborný popis a prezentaci.
Účastníci semináře se podrobně seznámí s metodami strojového překladu (machine translation, MT) založenými na automatickém zpracování (velkého) množství trénovacích dat a rovněž s existujícími volně šiřitelnými implementacemi těchto metod. Probereme jak širokou škálů přístupů organizovanou podle dvou hlavních kritérií: hloubka lingvistické anotace (lingvisticky neinformovaný přístup, využití tvarosloví, povrchové a hloubkové větné skladby) a hloubka metod strojového učení (klasický statistický přístup, který překládá větu po částech, a neuronový přístup, který modeluje celou úlohu naráz).