Charles Explorer logo
🇬🇧

Parallel Corpora

Class at Faculty of Arts |
AMLV00011

This text is not available in the current language. Showing version "cs".Annotation

Úvodní, prakticky orientovaný kurs pro zájemce o problematiku zpracování a využívání paralelních textů na počítači, včetně jejich uplatnění při (polo)automatickém překladu. Během semestru bude mít každý účastník možnost vytvořit svůj vlastní paralelní korpus v přiměřeném rozsahu.

Předpoklady: nevyžadují se, ale výhodou je základní orientace v metodách korpusové lingvistiky a počítačového zpracování textu, doporučení: Korpusová lingvistika - úvod

Osnova:

Osnova:

Úvod: korpusy a korpusová lingvistika, paralelní korpusy a jejich využití

Technické aspekty: formát dat, programové nástroje, hardware

Ukázky: existující projekty a zdroje dat

Výběr a získávání textů: vyváženost korpusu, technické a právní problémy

Příprava textů: opravy a úpravy, konverze

Zarovnávání (alignment): automatické nástroje, kontrola a opravy

Hledání v paralelním korpusu: nástroje a práce s nimi

Další způsoby využití paralelních korpusů: komputační lexikografie, hledání v cizojazyčných textech, strojový nebo počítačem podporovaný překlad, ...

Konzultace k individuálním projektům, jejich prezentace