Shromáždili jsme anglicky Tamil dvojjazyčných data z některé z veřejně dostupných internetových stránek pro NLP výzkum zahrnující Tamil.Standardní sada zpracování byla použita na nezpracovaná data, než webových údaje byly k dispozici ve větě vyrovnaném anglicky Tamil paralelní korpus vhodný pro různé úlohy NLP. Paralelní korpusy krycí texty z bible, kino a zpravodajských domén.