Korpusy spontánní mluvené češtiny: co bylo, je a bude

Publikace na Filozofická fakulta |

2012

Abstrakt

Přednáška představila dosavadní výsledky budování korpusů mluvené češtiny, které vznikaly a dosud vznikají v rámci jednoho z projektů realizovaných v Ústavu Českého národního korpusu Filozofické fakulty Univerzity Karlovy v Praze (ÚČNK FF UK), jehož hlavním cílem je zachycení reprezentativního materiálu představujícího autentický mluvený jazyk. V první části přednášky šlo o stručné představení stávajících již zveřejněných korpusů mluvené češtiny.

Těmito korpusy jsou např. PMK (Pražský mluvený korpus), BMK (Brněnský mluvený korpus) a korpusy spontánní mluvené češtiny řady ORAL (tj. korpusy ORAL2006 a ORAL2008) představující výhradně data z neformálních komunikačních situací.

Druhá hlavní část se zaměřila na specifika nového chystaného mluveného korpusu češtiny, který naváže na korpusy řady ORAL a jehož zveřejnění je plánováno na rok 2013. Pozornost byla věnována především komunikačněsituační definici cílových komunikátů, z nichž je korpus budován, a obecné koncepci i konkrétnímu způsobu sběru dat pro tento korpus.

Diskutovány byly také (i) problémy spjaté se zpracováním takto získaných cílových dat (např. problém vyváženosti jazykových dat podle jednotlivých sociolingvistických charakteristik mluvčích, problém shodných mluvčích atp.) a (ii) specifika tohoto jazykového materiálu, jako je např. propojení přepisu nahrávky se zvukem, značení pauzové interpunkce, značení simultánní, překrývající se produkce více mluvčích najednou atp. Ve třetí, závěrečné části pak byly zmíněny výhledy dalšího směřování sběru a zpracování dat spontánní mluvené češtiny v rámci projektu ÚČNK FF UK v Praze.

Klíčová slova

korpus spontánní mluvená čeština