Charles Explorer logo
🇨🇿

Mnohojazyčné počítačové zpracování jazyka

Předmět na Matematicko-fyzikální fakulta |
NPFL120

Sylabus

- Úvod do multilingvality (co to je, proč to způsobuje problémy, na co je to dobré, WALS)

- Prostý text (abecedy, transliterace, tokenizace, identifikace jazyka, podobnost jazyků)

- Strojový překlad pro vícejazyčné zpracování jazyka (Apertium, OPUS, Bible, Strážní věž, algoritmy slovního zarovnání, vícejazyčný strojový překlad)

- Morfologie (morfologická variabilita jazyků, morfologická anotace, Universal POS tags, Universal features, konverze tagsetů, mezijazyčný tagging)

- Syntaxe (syntaktická variabilita jazyků, harmonizace anotací treebanků, Universal Dependencies; mnohojazyčný parsing, mezijazyčný parsing)

- Word embeddings, vícejazyčné embeddings, kontextové vektorové reprezentace.

Anotace

Kurz se zaměřuje na multilingvální aspekty zpracování přirozeného jazyka. Vysvětluje problémy i výhody spojené s počítačovým zpracováním jazyka ve vícejazyčném prostředí a ukazuje možná řešení. Zaměříme se jak na zvládnutí variability jazyků při aplikaci monolingválních metod na širší spektrum jazyků, tak na skutečně mnohojazyčné a mezijazyčné přístupy kombinující zdroje z více jazyků najednou. Představíme si a budeme využívat řadu volně dostupných zdrojů anotovaných i neanotovaných mnohojazyčných dat.

Výuka probíhá formou semináře v počítačové laboratoři.