Klasifikace pomocí SVM v kombinačním závislostním analyzátoru tamilštiny

Publikace na Matematicko-fyzikální fakulta |

2012

Abstrakt

Závislostní syntaktická analýza pomáhá některým aplikacím z oblasti zpracování přirozeného jazyka dosáhnout vyšší úspěšnosti, zejména pokud jde o jazyky s relativně volným slovosledem. Pro morfologicky bohaté jazyky typicky existuje jen malé množství trénovacích dat, přičemž kvůli větší velikosti slovníku by jich naopak bylo potřeba více.

Tento článek se zabývá novými přístupy pro analýzu morfologicky bohatých jazyků s malým množstvím dat. Testovacím jazykem je v našich experimentech tamilština.

Vytvořili jsme 9 modelů pro závislostní syntaktickou analýzu, které byly natrénovány na malém množství dat. S využitím těchto modelů jsme natrénovali klasifikátor SVM, který jako rysy používá pouze informaci o shodě jednotlivých analyzátorů, díky čemuž lze tento přístup považovat za jazykově nezávislý.

Experimentálně jsme prokázali statisticky signifikantní zlepšení 5,44 % oproti průměrnému modelu a statisticky signifikantní zlepšení 0,52 % oproti nejlepšímu jednotlivému systému.

Klíčová slova

klasifikace pomocí kombinačním závislostním analyzátoru tamilštiny