V článku popisujeme vydání rozsáhlého jednojazyčného korpusu urdštiny s automatickým značkováním slovních druhů. Navazujeme na práci Jawaid a Bojar (2012), kde byly pro značkování použity tři taggery a finální výsledek určilo jejich hlasování.
Používáme stejnou komplexní sestavu na velký jednojazyčný korpus a výsledek zpřístupňujeme veřejnosti. Kromě toho na tomto velkém korpusu trénujeme jeden samostatný tagger, což, doufáme, podstatě zjednoduší zpracování urdštiny.
Tento samostatný tagger na nezávislých testovacích datech dosahuje přenosti 88,74 %.