Charles Explorer logo
🇨🇿

Nový state-of-the-art rozpoznávač pojmenovaných entit pro češtinu

Publikace na Matematicko-fyzikální fakulta |
2013

Abstrakt

Představujeme nový rozpoznávač pojmenovaných entit pro český jazyk, který dosahuje 82.82 F-measure na korpusu Czech Named Entity Corpus 1.0 a statisticky významně překonává dříve publikované české rozpoznávače pojmenovaných entit. Na anglické úloze CoNLL-2003 shared task dosahuje 89.16 F-measure.

Tento výsledek je srovnatelný s anglickými současnými výsledky. Rozpoznávač je založen na maximum entropy markovském modelu a optimální sekvence pojmenovaných entit je dosaženo globálním dekódováním Viterbiho algoritmem pomocí pravděpodobností odhadnutých maximum entropy klasifikátorem.

Klasifikátor využívá morfologickou analýzu, dvojúrovňovou predikci, clusterizaci slov a gazetteers.