V poslední době se hledáček korpusové lingvistiky stále více zaměřuje na češtinu v zahraničí. Za účelem jejího zkoumání vznikají specializované korpusy.
Právě tvorba a využití takových korpusů budou tématem příspěvku. K emigraci Čechů a šíření češtiny za hranice docházelo v průběhu všech historických period, pro češtinu v zahraničí a vznik jazykových ostrovů je ale důležité zejména období hospodářské emigrace, které začíná v polovině 19. století.
Tehdy byla osidlována rakousko-uherská vojenská hranice, velké množství krajanů odcházelo do amerického Texasu a došlo např. i k sekundární migraci Čechů z Polska do Volyně. V dnešní době mluvenou češtinu v zahraničí mapují dva dialektální korpusy: korpus BANÁT sledující češtinu v rumunském Banátu a korpus projektu TCDA zachycující češtinu v Texasu.
Začínají se také budovat korpusy zabývající se češtinou na Kavkaze, v chorvatském Daruvaru a v Rusku. Všechny tyto korpusy spojuje nejen snaha zachovat, co z původně relativně velkých jazykových ostrovů zbylo, ale také zpracovat již dříve pořízené materiály a zpřístupnit je pro diachronní srovnání.
Motivací může být snaha zdokumentovat nejen jazyk, ale i historii, příběhy a tradice jazykových ostrovů, někdy dokonce snaha vzbudit zájem o minoritní jazyk v samotném zahraničí. Je zřejmé, že situace takovýchto specializovaných korpusů se značně liší od obecných korpusů mluvené češtiny (např. od korpusu ORAL ÚČNK).
V příspěvku poukážeme na rozdíly mezi malými specializovanými korpusy a korpusy velkými. Budeme se věnovat např. problematice reprezentativnosti, způsobu sběru dat či možnému nežádoucímu ovlivňování nahrávaného materiálu při jeho získávání (velmi často se potýkáme s nucenou přítomností badatele, tedy "cizího" mluvčího, v mluvní situaci).
Tyto a mnohé další problémy budou ilustrovány zejména na datech z korpusu BANÁT. Nakonec si ukážeme, jak je za pomoci korpusu možné zkoumat rozdílnosti mezi češtinou v zahraničí a češtinou používanou na našem území.