Charles Explorer logo
🇨🇿

Inherentně zájmenná slovesa v češtině: Popis a konverze pomocí korpusové anotace

Publikace na Matematicko-fyzikální fakulta |
2016

Abstrakt

PARSEME Shared Task (PST) se zabývá automatickou identifikací víceslovných výrazů (VV) v textu. Jeho organizátoři připravili základní anotační pokyny se čtyřmi základními skupinami slovesných VV.

Jedním z dvaceti vybraných jazyků je i čeština. Článek popisuje konversi dat Pražského závislostního korpusu (PDT), prozatím výhradně inherentně zájmenných sloves (IPronV) -- současnou anotaci v PDT, porovnává ji s anotačními pokyny PST. Závěrem je, že PDT a přidružený slovník obsahuje pro konversi dostatek údajů (ačkoli specifické jevy budou muset být kontrolovány ručně).

Vedlejším efektem je, že jsme odhalili některé drobné chyby v anotaci PDT, které teď mohou být opraveny.