Charles Explorer logo
🇨🇿

Změny v českém morfologickém slovníku za účelem konzistentní anotace korpusu

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

V článku jsou popsány systematické změny, které jsou realizovány v českém morfologickém slovníku v souvislosti s anotací nových dat v Pražských závislostních korpusech. Přináší řešení několika komplikovaných morfologických jevů, které se objevují v českých textech.

Představeny jsou dva nové slovní druhy: cizí slovo a segment. Popisují se pravidla pro reprezentaci variantních a homonymních tvarů a slov (lemmat), pravidla pro zachycení zkratek a tzv. agregátů (např. naň).

Změny ve slovníku jsou prováděny za účelem vyšší konzistence mezi daty a slovníkem a v slovníku samotném.