Charles Explorer logo
🇨🇿

Konzistence morfologického slovníku MorfFlex

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Jazykové korpusy obvykle obsahují kromě vlastních textů i různé typy anotací. Nejběžnější je morfologická anotace, která spočívá v přiřazení lemmatu a morfologického tagu každému slovnímu tvaru.

Pro morfologické značkování se tradičně používají morfologické slovníky. Náš příspěvek představuje novou verzi tzv. "pražského" morfologického slovníku MorfFlex používaného pro tagování mnoha českých korpusů (zejména Prague Dependency Treebanks, korpusy vydávané Ústavem českého národního korpusu v Praze nebo velké české webové korpusy řady Aranea ).

K aktualizaci slovníku byly použity tři základní principy: Zlaté pravidlo morfologie, Princip jednoty paradigmatu a Princip jedinečnosti paradigmatu.