Charles Explorer logo
🇨🇿

Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu

Publikace na Filozofická fakulta |
2022

Abstrakt

Tento článek představuje některá významná koncepční vylepšení morfologické anotace korpusů řady SYN Českého národního korpusu. Kromě menších změn v tokenizaci a v pozičním tagsetu byly zavedeny tři velké koncepční změny, které ovlivňují reprezentaci různých lexikálních a gramatických jevů.

V příspěvku představujeme dopady těchto změn na lingvistická data a na vyhledávání ve třech jazykových oblastech. Za prvé je diskutováno zacházení s hláskovými, grafickými a morfologickými variantami prostřednictvím dvojúrovňové struktury lemmatu; za druhé je vysvětlen nový přístup ke složeným slovesným tvarům, pomocným slovesům, participiím a k zachycení slovesných gramatických kategorií prostřednictvím nového atributu zvaného verbtag; za třetí je představeno komplexní zpracování víceslovných tokenů pomocí tzv. multihodnot.