Charles Explorer logo
🇨🇿

O automatické extrakci definic ve slovanských jazycích

Publikace na Matematicko-fyzikální fakulta |
2007

Abstrakt

V tomto článku prezentujeme výsledky základních experimentů pro automatické extrahování definic (pro automatické generování glosářů) z nestrukturovaného (případně jen málo strukturovaného) textu v bulharštině, češtině a polštině. Extrakce je prováděna pomocí regulárních gramatik, které jsou použity na dokumenty v jednotném XML formátu.

Výsledky nejsou uspokojivé a ukazujeme, že příčina je ve vnitřní složitosti tohoto úkolu, k čemuž nás opravňuje nízká mezianotátorská shoda. Dále navrhujeme zpracování pomocí hlubší lingvistické analýzy a klasifikačních metod strojového učení.