Pod názvem Korpusy rané češtiny (Corpora of Czech as the First Language in Acquisition) pracuje skupina doktorandů a mladších studentů FF UK, která od roku 2014 postupně buduje korpusy složené z přepisů nahrávek komunikace dětí s rodiči v přirozeném prostředí. Nahrávky mapují vývoj zapojených dětí zhruba ve věku 1,5 až 3,5 roku. Rozpracované jsou dva korpusy: korpus Chroma je založený na audionahrávkách sedmi dětí, byl již zveřejněný (v databázích CHILDES a LINDAT) a aktuálně probíhá jeho revize a morfologická anotace; korpus ChroMat je založený na videonahrávkách dalších 6-7 dětí a je stále v procesu vzniku.
V přednášce stručně představím pozici korpusů ve výzkumu osvojování jazyka obecně; ukážu, jak vypadají přepisy tvořící tyto korpusy a jak je možné v nich vyhledávat.
Dále se zaměřím na vznikající morfologickou anotaci, která vychází z automatického značkování programem MorphoDiTa a následně prochází dalšími kroky tak, aby byl její formát kompatibilní s mezinárodní databází dětských korpusů CHILDES.