Charles Explorer logo
🇨🇿

Kartografické a geografické zpracování dat z mluvených korpusů

Publikace na Filozofická fakulta |
2015

Abstrakt

V tomto příspěvku představujeme nový způsob využití map při budování i využívání mluvených korpusů v Českém národním korpusu (ČNK). Zavedení kategorie nářečních oblastí do sběru mluvených dat si vyžádalo vytvoření přehledné mapy těchto oblastí, podle které se editoři orientovali při zařazování mluvčích.

V korpusech řady ORAL (ORAL2006, ORAL2008, ORAL2013) k tomuto účelu sloužila statická mapa vycházející z Běličova pojetí (Bělič, 1972). Korpus ORAL2013 navíc zachycuje jazyková data mluvčích z území celé České republiky, proto potřebujeme mít k dispozici kvalitní podkladové mapy.

S budováním nových korpusů mluveného jazyka ORTOFON a DIALEKT (jedná se o dva rozdílné korpusy, které se liší metodikou sběru dat i zpracová-ním jazykového materiálu, viz kapitoly 2.2, 2.3; oba obsahují nahrávky mluvčích ze všech nářečních oblastí České republiky) se využívání této mapy jevilo jako nedostatečné, proto jsme se rozhodli ve spolupráci s kartografem vytvořit mapu, která by sloužila k různým účelům: při budování korpusů, při zobrazení regionálních dat z korpusů, případně pro vyhledávání. V současné podobě jsou funkční první dva přístupy: pro nově budované korpusy zobrazování regionálního původu mluvčích či míst pořízení nahrávek na podkladových mapách a zobrazení geografického rozšíření jednotlivých jazykových jevů z korpusů řady ORAL prostřednictvím aplikace SyD.