Charles Explorer logo
🇨🇿

Výpočet průniku paralelních korpusů

Publikace

Abstrakt

Organizátoři každoročního Semináře o strojovém překladu (WMT) připravují a šíří paralelní korpusy, které lze použít při trénování systémů pro soutěžní úlohy. Mezi hlavní typy korpusů patří korpusy News Commentary a Europarl.

Oba jsou k dispozici v několika jazykových párech, vždy mezi angličtinou a dalším evropským jazykem: cs-en, de-en, es-en a fr-en. Tyto korpusy nejsou paralelní přes více než dva jazyky.

Pocházejí ze stejného zdroje a významně se překrývají, přesto však jsou některé věty přeloženy jen do některých jazyků. Dvojjazyčné paralelní podmnožiny nemají všechny stejný počet párů vět.

Takové korpusy nemůžeme přímo nasadit při trénování systému pro např. de-cs (němčina-čeština). Můžeme nicméně použít angličtinu jako pivotní jazyk.

Pokud rozpoznáme průnik anglických částí cs-en a de-en, můžeme použít jejich neanglické protějšky a vytvořit z nich paralelní korpus de-cs. Tuto úlohu plní tento software.