Wikipedia poskytuje neocenitelný zdroj paralelních vícejazyčných dat, které jsou ve vysoké poptávce pro různé druhy jazykových šetření, včetně teoretických i praktických studií. Zavedeme vede nový end-to-end neuronový model pro rozsáhlé paralelní sběr dat z Wikipedie.
Náš model je nezávislý na jazyku, robustní a vysoce škálovatelný. Používáme náš systém pro shromažďování, francouzsko-anglické a perzština-anglické věty.
Hodnocení člověka na konci ukazují silný výkon tohoto modelu při shromažďování vysoce kvalitních paralelních dat. My navrhnout také statistický rámec, který rozšiřuje výsledky našeho lidského hodnocení na jiné jazykové páry.
Náš model také získal nejmodernější výsledek německo-anglické datové sady ze společného úkolu BUCC 2017 na paralelní extrakci vět z srovnatelných korpusů.