Anglicko-urdský paralelní korpus slouží k trénování statistického strojového překladu mezi těmito dvěma jazyky. Skládá se ze čtyř částí:
1. Anglo-urdská část korpusu EMILLE;
2. texty z Wall Street Journalu (Penn Treebank);
3. překlady Koránu;
4. překlady Bible. Paralelní data, která existovala dříve (EMILLE) byla kompletně a nově ručně vyčištěna, opraveno zarovnání i řada vět na urdské straně.