Charles Explorer logo
🇨🇿

Radost z paralelního korpusu CzEng 1.0

Publikace na Matematicko-fyzikální fakulta |
2012

Abstrakt

CzEng 1.0 je aktualizovaná verze česko-anglického paralelního korpusu, volně použitelného pro nekomerční použití. Oproti předchozí verzi je velikost korpusu dvojnásobně zvětšena na 15 milionů větných párů (řádově 200 milionů slov pro každý jazyk).

Data jsou pečlivě profiltrována, aby se omezil výskyt neodpovídajících si větných párů apod. CzEng 1.0 je automaticky zarovnán po větách i po slovech.

Krom čistě textové verze dáváme k dispozici anotaci korpusu na několika rovinách: morfologické, větně členské (analytické, povrchová závislostní syntax) a tektogramatické (hloubková syntax). Obsažena je také automatická anotace koreference pro oba jazyky.