Charles Explorer logo
🇬🇧

Workshop Create your own corpus: annotation and search of spoken data with ELAN

Class at Faculty of Arts |
ALINV907B

This text is not available in the current language. Showing version "cs".Syllabus

Čeština disponuje několika velkými veřejně dostupnými mluvenými korpusy, např. řadou ORAL či korpusy DIALOG a MONOLOG, které se snaží pokrýt různé body na škále variet mluveného jazyka. Jeho situační a sociolingvistická rozrůzněnost je ovšem tak veliká, že není těžké narazit na jevy, u nichž nám jazyková intuice sice našeptává, že jsou v jistém ohledu typické a zasluhují bližší popis, ale kvůli povaze sběru dat, situačním či regionálním omezením jsou v dostupných korpusech zastoupeny pouze marginálně či rovnou vůbec. Chce-li je tedy lingvista empiricky zkoumat, nezbývá mu, než si data se zacílením na příslušnou výzkumnou otázku nasbírat sám.

Naštěstí existují různé volně dostupné softwarové nástroje určené k tomu, aby nám jak s transkripcí (tj. přímým přepisem promluvy), tak s anotací (tj. doplněním lingvistických informací nad rámec přepisu) a analýzou (prohledáváním) mluvených dat pomohly. Kromě programů jako je Praat, ANVIL nebo EXMARaLDA patří mezi nejpopulárnější a nejintuitivnější ELAN (EUDICO Linguistic Annotator). ELAN umožňuje anotaci zvukových a video souborů (i několika zároveň) a primárně je zacílen na výzkum multimodální komunikace (gestika, mimika, proxemika…), ale stejně dobře jde použít i pro výzkum v tradičnějších lingvistických disciplínách (morfologie, syntax). Výstupní soubory odpovídají standardu XML, což ulehčuje případnou další práci s nimi v jiných programech, ovšem již sám ELAN obsahuje pokročilé nástroje k prohledávání více souborů najednou a funguje tedy i jako konkordancer.

Cílem workshopu bude nastínit typický postup práce v ELANu od sběru dat přes jejich přepis až po analýzu. Důraz bude kladen především na úskalí při volbě způsobu transkripce mluveného jazyka a možnosti jeho další (para)lingvistické anotace. Postupně si projdeme: jak vzorky mluveného jazyka získat (jak nahrát sondu); jak zvuk naimportovat do ELANu a založit přepis; jak postupovat při přepisu, ať už koncepčně (sestavení transkripčního a anotačního schématu s ohledem na výzkumnou otázku) či metodologicky (samotný akt přepisování); jak výsledná data v případě potřeby hromadně upravovat a korpus prohledávat.

Pokud možno, vezměte si s sebou prosím vlastní notebook, abyste si vše mohli na místě vyzkoušet.

Literatura k programu ELAN uživatelská příručka: http://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf plný manuál: http://www.mpi.nl/corpus/manuals/manual-elan.pdf ke specifikům mluveného jazyka a výzkumným otázkám, které se s nimi pojí:

Adolphs, S. (2008): Corpus and context: investigating pragmatic functions in spoken discourse. Amsterdam: John Benjamins.

Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences, 31, 1-13.

Hoffmannová, J., Čmejrková a S., eds. (2011): Mluvená čeština. Praha: Academia.

Kopřivová, M. a Waclawičová, M., eds. (2008): Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny.

Miller, J. a Weinert, R. (1998): Spontaneous Spoken Language: Syntax and Discourse. Oxford: Clarendon Press.

Müllerová, O., Hoffmannová, J. a Schneiderová, E. (1991): Mluvená čeština v autentických textech. Praha: H&H.

This text is not available in the current language. Showing version "cs".Annotation

Konference Lingvistika Praha 2015 se koná ve dnech 22. až 24. října 2015. Srdečně vás zveme na celý program konference.

Plenární přednášky a tematické sekce jsou studentům volně přístupné. Na workshopy je vždy třeba se zaregistrovat pomocí webu na adrese http://lingvistikapraha.ff.cuni.cz.

Studentům navíc umožňujeme, aby si jednotlivé workshopy zapsali v SIS jako volitelný předmět (viz podmínky atestace). Pro účast na workshopu ale není registrace v SIS nutná.

V rámci workshopů LP 2015 si studenti osvojí praktické technické a metodologické dovednosti potřebné pro empirický lingvistický výzkum a analýzu jazykových dat obecně. Účastníci pracují individuálně nebo ve skupinách na plnění zadaných úkolů a společně s vedoucím workshopu procházejí jednotlivé kroky analýzy. K účasti na workshopech nejsou vyžadovány žádné předběžné znalosti.