Charles Explorer logo
🇨🇿

Zpracování textu v češtině pomocí kontextových embeddingů: POS tagging, lemmatizace, závislostní parsing a rozpoznávání pojmenovaných entit

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Nedávno byly navrženy kontextové embeddingy, které vhodně zachycují význam slova v závislosti na kontextu. V tomto příspěvku vyhodnocujeme dvě metody pro výpočet takových embeddingů, BERT a Flair, na čtyřech úlohách zpracování přirozeného jazyka v češtině: značkování slovních druhů (POS tagging), lemmetizace, závislostní parsing a rozpoznávání pojmenovaných entit.

První tři úlohy jsou vyhodnoceny na dvou korpusech: Pražský závislostní korpus 3.5 a Universal Dependencies 2.3. Rozpoznávání pojmenovaných entit je vyhodnoceno na Českém korpusu pojmenovaných entit (Czech Named Entity Corpus) 1.1 a 2.0.

Publikujeme state-of-the-art výsledky ve všech výše zmíněných úlohách na všech korpusech.