Rozpoznávání jazyků v posledních letech významně pokročilo pomocí moderních metod strojového učení, jako je deep learning a měřítka s bohatými anotacemi. Výzkum je však ve formálních jazycích s nízkými zdroji stále omezený.
Skládá se z významná mezera v popisu hovorového jazyka, zejména pro ty s nízkými zdroji, jako je perština. Aby bylo možné tuto mezeru zacílit pro jazyky s nízkými zdroji navrhujeme „Large Scale Colloquial Persian Dataset“ (LSCP).
LSCP je hierarchicky uspořádán do a sémantická taxonomie, která se zaměřuje na víceúčelové neformální porozumění perskému jazyku jako komplexní problém. To zahrnuje uznání několika sémantických aspektů ve větách na lidské úrovni, které přirozeně zachycuje z vět z reálného světa.
Věříme, že další vyšetřování a zpracování, stejně jako aplikace nových algoritmů a metod, může posílit obohacení počítačového porozumění a zpracování jazyků s nízkými zdroji. Navrhovaný korpus se skládá ze 120 milionů vět vycházejících z 27 milionů tweetů anotovaných stromem analýz