Charles Explorer logo
🇨🇿

NovaMorf: konec dlouhého období konvergencí a divergencí ve zpracování české morfologie

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

V tomto textu chceme nastínit shody a rozdíly dvou tagsetů užívaných k automatické morfologické analýze češtiny. Ukážeme, nakolik původně nezáměrná a časem udržovaná dvojkolenost tzv. pražského a tzv. brněnského systému může býti v dohledné době překonána v rámci projektu NovaMorf.

Budeme se zabývat vztahy mezi značkováním morfologických kategorií a hodnot v návrhu NovaMorf v porovnání s oběma staršími systémy. Při posuzování brněnského systému vycházíme z článku Czech Morphological Tagset Revisited. (Jakubíček, Kovář, Šmerk, 2011).

Poznatky o pražském systému zakládáme na popisu pražského pozičního tagsetu (viz http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html) a na monografii Jana Hajiče (Hajič, 1994, 2004). Naším cílem bude ukázat, kterak zkušenosti s užíváním obou systémů vyústily ve snahu inspirovat se pozitivy a vyhnout se neúspěšným řešením na obou stranách (srv.

Osolsobě et al., 2017). Ke vzájemné konverzi značek dosavadního pražského systému na brněnský viz Pořízka, Schäfer