Charles Explorer logo
🇨🇿

Cross - kulturní přenos závislost s harmonizovanými indických jazyků stromových korpusů.

Publikace na Matematicko-fyzikální fakulta |
2014

Abstrakt

Jedním z nejdůležitějších aspektů cross-kulturní přenos závislostí je to, jak různé anotace styly, které často podceňují přesnost syntaktické jsou zpracovány. Novým trendem je, že styl anotace různých jazykových stromových korpusů může být harmonizovány do jednoho stylu, a tak se lze vyhnout těžkopádné pravidla manuální transformace.

V tomto článku budeme používat harmonizované stromových korpusů (POS tagsets a závislost struktury původní stromových korpusů mapované do společného stylu) pro vyvolání závislosti na nastavení cross-kulturní. Nabízíme převod závislostí pomocí delexicalized analyzátory, které používají harmonizované verze původních stromových korpusů.

Tento přístup aplikovat na pět indických jazyků (Hindština, Urdu, Telugu, bengálský a Tamil) a ukazují, že Nejlepšího výkonu lze získat delexicalized analýze, kdy dojde k přemístění z indického jazyka (IL) na IL stromových korpusů.