Charles Explorer logo
🇨🇿

Morfologické značkování a lemmatizace v korpusech ČNK

Publikace na Matematicko-fyzikální fakulta |
2007

Abstrakt

Tento článek představuje metody, jimiž byly označkovány tři velké textové korpusy (SYN2000, SYN2005 a SYN2006PUB). Postup značkování má několik fází: tokenizaci a segmentaci, morfologickou analýzu a dizambiguaci.

Při značkování korpusů byly použity jak stochastické, tak pravidlové metody. V závěru článku je představena podrobná evaluace značkovacích metod a kvality značkování ve jmenovaných korpusech.