Charles Explorer logo
🇨🇿

Obtížné problémy při konverzi sady značek

Publikace na Matematicko-fyzikální fakulta |
2010

Abstrakt

Morfologické značky jsou důležitým prostředkem anotace ve velkém množství korpusů. V různých korpusech, dokonce i pro tentýž jazyk, se však používají různé sady značek.

Konverze sad značek je obtížná a řešení bývají ušitá na míru konkrétní dvojici sad. V článku probíráme Interset, univerzální metodu, díky které se dají převodní nástroje používat opakovaně.

Zatímco některé mluvnické kategorie jsou jasně definované a dají se snadno přenášet z jedné sady do druhé, existují také jevy, které je těžké zachytit kvůli překrývajícím se konceptům. Zaměřujeme se na některé takové problémy, probíráme jejich výskyt ve vybraných sadách značek a navrhujeme řešení, která sjednotí přístupy jednotlivých sad.