Charles Explorer logo
🇨🇿

TamilTB: Snaha vybudovat závislostní korpus pro tamilštinu

Publikace na Matematicko-fyzikální fakulta |
2011

Abstrakt

Anotovaná korpusy jako treebanks jsou důležité pro rozvoj analyzátorů, jazyk aplikace, stejně jako znalost jazyka. Jen velmi málo jazyků, mají tyto omezené zdroje.

V tomto příspěvku popisujeme naše eort v syntakticky anotace malé korpusy (600 vět) tamilského jazyk. Naše poznámka je podobný Pražský závislostní korpus (PDT 2.0) a skládá se ze 2 úrovní nebo vrstev: (i) morfologické vrstvy (m-layer) a (ii) analytické vrstva (vrstvy).

Pro obě vrstvy, jsme zavedli anotace programů, tj. polohy Tagging pro m-vrstvě a vztahy závislosti (a jak závislost struktury by měla být vypracována) pro vrstev. Nakonec jsme se zhodnotit naše korpusy v označování a analýze úlohy pomocí známých značkovače a analyzátory a diskutovat některé obecné otázky V anotaci na Tamil jazyce.