Charles Explorer logo
🇨🇿

Pražský závislostní korpus jako elektronická cvičebnice jazyka českého

Publikace na Matematicko-fyzikální fakulta |
2006

Abstrakt

Pražský závislostní korpus (PDT) patří mezi nejvýznamnější jazykové korpusy na světě. Cílem naší práce je představit softwarový systém, který nad daty PDT vytvoří elektronickou cvičebnici českého jazyka.

Procvičování probíhá ve dvou oblastech: tvarosloví (určování slovních druhů a jejich morfologických kategorií) a větný rozbor (určování větných členů a závislostí mezi nimi). Vzhledem k odlišnostem mezi akademickými rozbory vět a rozbory tak, jak jsou vyučovány ve školách, však nelze data PDT použít zcela přímočaře.

Mnoho vět je potřeba z dat úplně vyřadit, na ostatních je nutné provést množství transformací, které převedou původní reprezentaci do tvaru, na nějž jsou žáci zvyklí ze školy.