Závislostní korpus indonésštiny: anotace a parsing

Publikace na Matematicko-fyzikální fakulta |

2012

Abstrakt

Článek ukazuje závislostní analýzu s využitím kombinace parseru a self-trainingu pro jazyky s malým množstvím jazykových dat. Ověřili jsme, že pro jazyk s malým množstvím dat je využití ladicích dat pro meta-klasifikátor efektivnější než jejich přidání do zbývajících trénovacích dat jednotlivých analyzátorů.

Tento mete-klasifikátor vytváří kombinovaný závislostní parse a zvyšuje úspěšnost analýzy v průměru o 4.92% a o 1.99% ve srovnání s jednotlivým nejlepším systémem. Meta-klasifikátor se může přizpůsobit rostoucím dostupným datům.

Využitím self-trainingu společně s kombinací několika parseru vzniká další zlepšení.

Klíčová slova

závislostní korpus indonésštiny anotace parsing