Závislostní syntaktická analýza pomáhá některým aplikacím z oblasti zpracování přirozeného jazyka dosáhnout vyšší úspěšnosti, zejména pokud jde o jazyky s relativně volným slovosledem. Pro morfologicky bohaté jazyky typicky existuje jen malé množství trénovacích dat, přičemž kvůli větší velikosti slovníku by jich naopak bylo potřeba více.
Tento článek se zabývá novými přístupy pro analýzu morfologicky bohatých jazyků s malým množstvím dat. Testovacím jazykem je v našich experimentech tamilština.
Vytvořili jsme 9 modelů pro závislostní syntaktickou analýzu, které byly natrénovány na malém množství dat. S využitím t ěchto modelů jsme natrénovali klasifikátor SVM, který jako rysy používá pouze informaci o shodě jednotlivých analyzátorů, díky čemuž lze tento přístup považovat za jazykově nezávislý.
Experimentálně jsme prokázali statisticky signifikantní zlepšení 5,44 % oproti průměrnému modelu a statisticky signifikantní zlepšení 0,52 % oproti nejlepšímu jednotlivému systému.