PARSEME Shared Task (PST) se zabývá automatickou identifikací víceslovných výrazů (VV) v textu. Jeho organizátoři připravili základní anotační pokyny se čtyřmi základními skupinami slovesných VV.
Jedním z dvaceti vybraných jazyků je i čeština. Článek popisuje konversi dat Pražského závislostního korpusu (PDT), prozatím výhradně inherentně zájmenných sloves (IPronV) -- současnou anotaci v PDT, porovnává ji s anotačními pokyny PST. Závěrem je, že PDT a přidružený slovník obsahuje pro konversi dostatek údajů (ačkoli specifické jevy budou muset být kontrolovány ručně).
Vedlejším efektem je, že jsme odhalili některé drobné chyby v anotaci PDT, které teď mohou být opraveny.