Charles Explorer logo
🇨🇿

HamleDT 2.0: Třicet závislostních korpusů stanfordizováno

Publikace na Matematicko-fyzikální fakulta |
2014

Abstrakt

Představujeme HamleDT 2.0 (HArmonized Multi-LanguagE Dependency Treebank). HamleDT 2.0 je sbírka 30 existujících závislostních korpusů, harmonizovaných do společného anotačního stylu – Pražských závislostí – a dále transformovaných do Stanfordských závislostí – anotačního stylu, který se v nedávné době stal oblíbeným.

Používáme nejnovější základní Universal Stanford Dependencies, bez dodaných jazykově specifických subtypů. Popisujeme oba anotační styly, včetně úprav, které bylo nutné provést, a poskytujeme detaily o procesu konverze.

Diskutujeme též rozdíly mezi těmito dvěma styly, vyhodnocujíce jejich výhody a nevýhody, a zmiňujeme vliv těchto rozdílů na konverzi. Stanfordizaci obecně považujeme za úspěšnou, přestože uznáváme několik nedostatků – zejména v rozlišení přímých a nepřímých předmětů – kterým je nutné v budoucnosti věnovat pozornost. Část HamleDT 2.0 volně zveřejňujeme; nemáme svolení k redistribuci celé datové sady, ale poskytujeme nástroje pro konverzi.