Charles Explorer logo
🇨🇿

Vícezdrojový mezijazyčný přenos delexikalizovaného parseru: Praha nebo Stanford?

Publikace na Matematicko-fyzikální fakulta |
2015

Abstrakt

Porovnáváme dva anotační styly, Pražské závislosti a univerzální Stanfordské závislosti, ve smyslu jejich vhodnosti pro parsing. Konkrétně se zaměřujeme na porovnání stylu zavěšení adpozic, použivaného v těchto dvou formalismech, na úloze vícezdrojového mezijazyčného přenosu delexikalizovaného parseru, používajíce MSTParser.

Zjišťujeme, že v našem scénáři se stává zřetelnou výhoda Stanfordského stylu, neboť převod anotace adpozic v treebancích anotovaných v Pražském stylu do Stanfordského stylu vede k mírně lepšímu výsledku (+0.2% UAS). Dále ukazujeme, že nejlepších výsledků lze dosáhnout pomocí natrénování parserů na treebancích využívajících oba styly anotace adpozic, analýzy cílového treebanku pomocí všech těchto parserů a kombinace všech získaných stromů, po jejich převodu do stejného anotačního stylu (dalších +0.18% UAS).

Rozdíly ve skóre jsou ještě vyšší, když se použije menší sada různorodých zdrojových treebanků (až 2.24% UAS oproti základní verzi).