Vyhledávání v datech s anotací víceslovných jednotek pomocí CQL

Publikace na Matematicko-fyzikální fakulta |

2017

Abstrakt

Článek popisuje jeden z možných způsobů, jak zobrazit a prohledávat data s anotací víceslovných jednotek. Využíváme mnohojazyčný korpus PARSEME s anotací verbálních víceslovných jednotek v 18 jazycích.

Anotované jednotky zahrnují různé typy, jako např. idiomy, konstrukce s lehkými slovesy, inherentně reflexivní slovesa nebo konstrukce se slovesem a částicí. Korpus byl dosud využíván zejména pro trénování prediktivních modelů, ale nikoli k lingvistickému výzkumu per se. Článek nabízí způsob, jak data zpřístupnit lingvistům skrze jednoduché vyhledávací prostředí a jazyk Corpus Query Language (CQL) známy například z často užívané platformy NoSke.

I přes omezené možnosti k zachycení komplexních jevů jakými jsou nespojité, koordinované nebo vnořené víceslovné predikáty, CQL může postačovat k základním vyhledávkám víceslovných jednotek pro korpusově založený výzkum.

Klíčová slova

vyhledávání datech anotací víceslovných jednotek pomocí