Charles Explorer logo
🇨🇿

Dotazování jednotným způsobem v různých treebankách

Publikace na Matematicko-fyzikální fakulta |
2010

Abstrakt

Článek představuje jednotný dotazovací systém pro treebanky, schopný pracovat se závislostními i složkovými stromy v libovolném jazyce. Možnosti systému jsou předváděny na 11 různých treebankách.

Dotazovací jazyk systému má mnoho rysů, které v ostatní systémech chybějí, ale zachovává si výkonnost. Článek popisuje konverzi různých datových formátů do formátu postaveného na XML, který systém používá. Následně jsou představeny některé lingvisticky zajímavé otázky, na které systém umí hledat odpovědi, např. prohlížení slovesných klauzí bez podmětu, generování gramatiky ze složkového treebanku, hledání neprojektivních hran v závislotních datech, nebo typologie jazyka podle SOV pořádku.

Na závěr je provedeno měření výkonu různých implementací systému.