Charles Explorer logo
🇨🇿

UMC005: Anglicko-urdský paralelní korpus

Publikace

Abstrakt

Anglicko-urdský paralelní korpus slouží k trénování statistického strojového překladu mezi těmito dvěma jazyky. Skládá se ze čtyř částí:

1. Anglo-urdská část korpusu EMILLE;

2. texty z Wall Street Journalu (Penn Treebank);

3. překlady Koránu;

4. překlady Bible. Paralelní data, která existovala dříve (EMILLE) byla kompletně a nově ručně vyčištěna, opraveno zarovnání i řada vět na urdské straně.