Úvodní, prakticky orientovaný kurs pro zájemce o problematiku zpracování a využívání paralelních textů na počítači, včetně jejich uplatnění při (polo)automatickém překladu. Během semestru bude mít každý účastník možnost vytvořit svůj vlastní paralelní korpus v přiměřeném rozsahu.
Předpoklady: nevyžadují se, ale výhodou je základní orientace v metodách korpusové lingvistiky a počítačového zpracování textu, doporučení: Korpusová lingvistika - úvod
Osnova:
Osnova:
Úvod: korpusy a korpusová lingvistika, paralelní korpusy a jejich využití
Technické aspekty: formát dat, programové nástroje, hardware
Ukázky: existující projekty a zdroje dat
Výběr a získávání textů: vyváženost korpusu, technické a právní problémy
Příprava textů: opravy a úpravy, konverze
Zarovnávání (alignment): automatické nástroje, kontrola a opravy
Hledání v paralelním korpusu: nástroje a práce s nimi
Další způsoby využití paralelních korpusů: komputační lexikografie, hledání v cizojazyčných textech, strojový nebo počítačem podporovaný překlad, ...
Konzultace k individuálním projektům, jejich prezentace