Otagovaný korpus a tagger pro urdštinu

Publikace na Matematicko-fyzikální fakulta |

2014

Abstrakt

V článku popisujeme vydání rozsáhlého jednojazyčného korpusu urdštiny s automatickým značkováním slovních druhů. Navazujeme na práci Jawaid a Bojar (2012), kde byly pro značkování použity tři taggery a finální výsledek určilo jejich hlasování.

Používáme stejnou komplexní sestavu na velký jednojazyčný korpus a výsledek zpřístupňujeme veřejnosti. Kromě toho na tomto velkém korpusu trénujeme jeden samostatný tagger, což, doufáme, podstatě zjednoduší zpracování urdštiny.

Tento samostatný tagger na nezávislých testovacích datech dosahuje přenosti 88,74 %.

Klíčová slova

otagovaný korpus tagger urdštinu