Identifikace jazyku psaného textu se zkoumá již několik desetiletí. Navzdory tomuto faktu se většina vůzkumů soustředila pouze na pár nejčastěji používaných jazyků zatímco ty ostatní jsou ignorovány.
Při identifikaci velkého množství jazyků je nutné řešit jiné problémy než u identifikace malého množství jazyků, protože v opačném případě nastává pokles přesnosti. Cílem tohoto článku je prozkoumat důvody tohoto poklesu.
Aby bylo možné izolovat jednotlivé faktory použili jsme 5 různých algoritmů a 3 různé počty jazyků. SVM algoritmus dosáhl úspěšnosti 98% pro 90 jazyků a YALI algoritmus založená na ohodnocující funkci dosáhl úspěšnosti 95,4%.
YALI algoritmus je sice nepatrně horší, ale jazyky identifikuje 17x rychleji a jeho trénování je dokonce 4000x rychlejší. Připravili jsme také 3 různé datasety s různým počtem jazyků a velikostí vzorků, abychom překonali nedostatek veřejně dostupných trénovacích dat.