Budování paralelních korpusů pomocí her na sociálních sítích

Publikace na Matematicko-fyzikální fakulta |

2012

Abstrakt

Příprava trénovacích dat je pracná a představuje hlavní překážku ve vývoji zpracování přirozeného jazyka (NLP). Mezi hlavní aplikace NLP patří strojový překlad, který se v současnosti opírá o dostupnost velkého množství dat.

Sestavování těchto dat je finančně náročné a současně náchylné k chybám. Nově se objevující technologie jako sociální sítě a "seriózní" hry nabízejí jedinečnou příležitost změnit způsob přípravy trénovacích dat.

Hry s účelem byly zkonstruovány pro větnou segmentaci, značkování obrázků a rozpoznávání koreference. Tyto hry fungují na třech úrovních: poskytují zábavu hráčům, hráči se při nich učí a současně poskytují data pro výzkum.

Většina těchto systémů se potýká s nedostatkem účastníků. V tomto článku předkládáme sadu lingvisticky orientovaných her zaměřených na sestrojení paralelního korpusu pro několik jazyků a umožňujících hráčům zlepšení jejich slovní zásoby v těchto jazycích.

První zveřejněná verze GlobeOtter je dostupná na Facebooku. Jedním z cílů je zde získat dostatečné m

Klíčová slova

budování paralelních korpusů pomocí sociálních sítích