Workshop Create your own corpus: annotation and search of spoken data with ELAN

Class at Faculty of Arts |

ALINV907B

Syllabus

Čeština disponuje několika velkými veřejně dostupnými mluvenými korpusy, např. řadou ORAL či korpusy DIALOG a MONOLOG, které se snaží pokrýt různé body na škále variet mluveného jazyka. Jeho situační a sociolingvistická rozrůzněnost je ovšem tak veliká, že není těžké narazit na jevy, u nichž nám jazyková intuice sice našeptává, že jsou v jistém ohledu typické a zasluhují bližší popis, ale kvůli povaze sběru dat, situačním či regionálním omezením jsou v dostupných korpusech zastoupeny pouze marginálně či rovnou vůbec. Chce-li je tedy lingvista empiricky zkoumat, nezbývá mu, než si data se zacílením na příslušnou výzkumnou otázku nasbírat sám.

Naštěstí existují různé volně dostupné softwarové nástroje určené k tomu, aby nám jak s transkripcí (tj. přímým přepisem promluvy), tak s anotací (tj. doplněním lingvistických informací nad rámec přepisu) a analýzou (prohledáváním) mluvených dat pomohly. Kromě programů jako je Praat, ANVIL nebo EXMARaLDA patří mezi nejpopulárnější a nejintuitivnější ELAN (EUDICO Linguistic Annotator). ELAN umožňuje anotaci zvukových a video souborů (i několika zároveň) a primárně je zacílen na výzkum multimodální komunikace (gestika, mimika, proxemika…), ale stejně dobře jde použít i pro výzkum v tradičnějších lingvistických disciplínách (morfologie, syntax). Výstupní soubory odpovídají standardu XML, což ulehčuje případnou další práci s nimi v jiných programech, ovšem již sám ELAN obsahuje pokročilé nástroje k prohledávání více souborů najednou a funguje tedy i jako konkordancer.

Cílem workshopu bude nastínit typický postup práce v ELANu od sběru dat přes jejich přepis až po analýzu. Důraz bude kladen především na úskalí při volbě způsobu transkripce mluveného jazyka a možnosti jeho další (para)lingvistické anotace. Postupně si projdeme: jak vzorky mluveného jazyka získat (jak nahrát sondu); jak zvuk naimportovat do ELANu a založit přepis; jak postupovat při přepisu, ať už koncepčně (sestavení transkripčního a anotačního schématu s ohledem na výzkumnou otázku) či metodologicky (samotný akt přepisování); jak výsledná data v případě potřeby hromadně upravovat a korpus prohledávat.

Pokud možno, vezměte si s sebou prosím vlastní notebook, abyste si vše mohli na místě vyzkoušet.

Literatura k programu ELAN uživatelská příručka: http://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf plný manuál: http://www.mpi.nl/corpus/manuals/manual-elan.pdf ke specifikům mluveného jazyka a výzkumným otázkám, které se s nimi pojí:

Adolphs, S. (2008): Corpus and context: investigating pragmatic functions in spoken discourse. Amsterdam: John Benjamins.

Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences, 31, 1-13.

Hoffmannová, J., Čmejrková a S., eds. (2011): Mluvená čeština. Praha: Academia.

Kopřivová, M. a Waclawičová, M., eds. (2008): Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny.

Miller, J. a Weinert, R. (1998): Spontaneous Spoken Language: Syntax and Discourse. Oxford: Clarendon Press.

Müllerová, O., Hoffmannová, J. a Schneiderová, E. (1991): Mluvená čeština v autentických textech. Praha: H&H.

Annotation

Konference Lingvistika Praha 2015 se koná ve dnech 22. až 24. října 2015. Srdečně vás zveme na celý program konference.

Plenární přednášky a tematické sekce jsou studentům volně přístupné. Na workshopy je vždy třeba se zaregistrovat pomocí webu na adrese http://lingvistikapraha.ff.cuni.cz.

Studentům navíc umožňujeme, aby si jednotlivé workshopy zapsali v SIS jako volitelný předmět (viz podmínky atestace). Pro účast na workshopu ale není registrace v SIS nutná.

V rámci workshopů LP 2015 si studenti osvojí praktické technické a metodologické dovednosti potřebné pro empirický lingvistický výzkum a analýzu jazykových dat obecně. Účastníci pracují individuálně nebo ve skupinách na plnění zadaných úkolů a společně s vedoucím workshopu procházejí jednotlivé kroky analýzy. K účasti na workshopech nejsou vyžadovány žádné předběžné znalosti.