V článku popisujeme, jak jsme zlepšili značkování slovních druhů pro urdštinu pomocí kombinace dostupných taggerů a dostupných ručně značkovaných dat. V prvním kroku sjednocujeme sady značek užívané v jednotlivých zdrojích.
Dále náš vlastní tagger natrénovaný na dostupných datech funguje výrazně lépe než dostupné nástroje. A konečně tento výsledek je možné ještě mírně zlepšit za použití návrhů od ostatních taggerů.