Slovní embeddingy jsou ve zpracování přirozeného jazyka čím dál podstatnější komponentou. Tento článek představuje novou metodu pro přenos statických podslovných embeddings z jazyka s relativním dostatkem zdrojů do jazyka s nedostatkem zdrojů.
Primárně pracujeme s jazykovým párem hindština-márátština, přičemž pro márátštinu je nedostatek zdrojů pouze simulovaný a výsledky dále potvrzujme na nepálštině. Náš přístup výrazně překonává baseline fastText pro oba jazyky na úlohách podobnost slov a testování synonymie.
Na první úloze je úspěšnost na máráštině dokonce srovnatelná s úspěšností standardní metody při využití o tři řády většího množství dat. We primarily work with Hindi-Marathi, simulating a low-resource scenario for Marathi, and confirm observed trends on Nepali.
We demonstrate the consistent benefits of unsupervised morphemic segmentation on both source and target sides over the treatment performed by fastText. Our best-performing approach uses an EM-style approach to learning bilingual subword