Charles Explorer logo
🇨🇿

Extrakce slovesných víceslovných výrazů z bohatě anotovaného syntaktického korpusu

Publikace na Matematicko-fyzikální fakulta |
2017

Abstrakt

Soutěž PARSEME Shared Task v identifikaci slovesných víceslovných výrazů požaduje po účastnících vyhledávání výrazů v běžném textu. V tomto článku ukazujeme, jak je možné česká trénovací data získat nikoli manuální anotací, nýbrž převodem informací z předchozích anotací uložených v Pražském závislostním korpusu na různých úrovních a různým způsobem.

Prvním krokem je porovnání anotačních instrukcí a srovnání typologie.