Učitel: Mgr. Lucie Chlumská, Ph.D. lucie.chlumska@ff.cuni.cz, lucie.chlumska@gmail.com Místnost: S131 na hlavní budově FF UK (vzadu ve dvoře) The course consists of 12-13 lessons (2 academic hours).
1. Introduction to the course (syllabus, requirements)
2. Introduction to corpus linguistics, types of corpora; KonText interface: basic queries, regular expressions (use of wild characters, operators of repetition etc.)
3. Principles of lemmatisation and morphological tagging of corpora (stochastic methods, rule-based methods of disambiguation); CQL (corpus query language), using lemmas and tags in complex queries
4. Advanced regular expressions (logical operators); creating subcorpora based on different metadata; concept of representativeness in corpora
5. Collocations (and colligations) and statistical methods for their identification (incl. word sketches)
6. InterCorp parallel corpus: searching for translation equivalents, false friends in translation, creating subcorpora on a parallel corpus
7. Corpora in corpus-based translation studies, translation universals in English and Czech
8. BNC – about the corpus, BNC-Web interface (querying); English spoken corpora (incl. spoken part of the BNC)
9. COCA, COHA and other corpora in Mark Davies’ interface (querying); British and American English
10. N-grams, phrases and corresponding corpus-based tools; academic English
11. Web corpora; tailor-made corpora and free software to analyse them (AntConc, LancsBox)
12. AntConc, LancsBox– advanced analysis
13. presentation of students' work, discussion Rozsah: 0/2 (jednosemestrální kurs otevíraný vždy v zimním semestru) Atestace: Z Kredity: 5 Požadavky k zápočtu: aktivní účast na seminářích, samostatné zpracování lingvistického jevu (angličtina) korpusovými metodami a jeho prezentace v závěrečné hodině.
Cíl semináře
Seminář je určen především pro anglisty, studenty oboru PTA, ale i zájemce z jiných lingvistických oborů, které zajímá kvantitativní pohled na jazyk a využití anglických i českých korpusů při studiu, výzkumu nebo v překladatelské praxi. V průběhu semestru se studenti naučí pracovat s korpusovými manažery KonText (pro korpusy Českého národního korpusu i BNC a pro paralelní korpusy InterCorp) a BNC-Web (pro British National Corpus) a rovněž si vyzkouší práci s webovými rozhraními pro korpusy COCA a COHA. Dále budou v semináři probírána témata, jako je reprezentativnost korpusů a jejich složení, kolokace, vytváření subkorpusů podle zadaných parametrů, využití korpusů v kontrastivní lingvistice a další.
Seminář je vyučován česky, ale hojně využívá anglické terminologie i anglicky psané literatury oboru. Počet studentů v semináři je z kapacitních důvodů omezen na 10.
Na seminář volně navazují semináře Angličtina a korpusy II a III pod záštitou ÚAJD, rovněž je možné pokračovat ve studiu korpusové lingvistiky v dalších seminářích vypisovaných ÚČNK.