Příprava trénovacích dat je pracná a představuje hlavní překážku ve vývoji zpracování přirozeného jazyka (NLP). Mezi hlavní aplikace NLP patří strojový překlad, který se v současnosti opírá o dostupnost velkého množství dat.
Sestavování těchto dat je finančně náročné a současně náchylné k chybám. Nově se objevující technologie jako sociální sítě a "seriózní" hry nabízejí jedinečnou příležitost změnit způsob přípravy trénovacích dat.
Hry s účelem byly zkonstruovány pro větnou segmentaci, značkování obrázků a rozpoznávání koreference. Tyto hry fungují na třech úrovních: poskytují zábavu hráčům, hráči se při nich učí a současně poskytují data pro výzkum.
Většina těchto systémů se potýká s nedostatkem účastníků. V tomto článku předkládáme sadu lingvisticky orientovaných her zaměřených na sestrojení paralelního korpusu pro několik jazyků a umožňujících hráčům zlepšení jejich slovní zásoby v těchto jazycích.
První zveřejněná verze GlobeOtter je dostupná na Facebooku. Jedním z cílů je zde získat dostatečné m