Angličtina a korpusy I: Základy práce s jazykovými korpusy

Sylabus

Učitel: Mgr. Lucie Chlumská lucie.chlumska@ff.cuni.cz, lucie.chlumska@gmail.com Místnost: S131 na hlavní budově FF UK (vzadu ve dvoře) The course consists of 12-13 lessons (2 academic hours).

1. introduction to the course, registration to the corpora (CNC, BNC, COCA)

2. introduction to corpus linguistics, types of corpora, basic queries, regular expressions (use of wild characters, operators of repetition etc.), KonText interface

3. principles of lemmatisation and morphological tagging of corpora (stochastic methods, rule-based methods of disambiguation), CQL (corpus query language), using lemmas and tags in complex queries

4. advanced regular expressions (logical operators), filters - positive and negative, creating subcorpora based on different metadata, concept of representativeness in corpora of spoken and written language

5. the InterCorp parallel corpus, searching for translation equivalents, false friends in translation, creating subcorpora on a parallel corpus

6. collocations and statistical methods for their identification

7. corpora in translation studies, translation universals in English

8. BNC - about the corpus, BNC Web interface

9. English spoken corpora (incl. spoken part of the BNC), corpus-based vs. corpus-driven approach

10. COCA, COHA and other corpora in Mark Davies’ interface, querying

11. British and American English - case studies

12. other English corpora and interfaces, building a corpus, AntConc (clusters, keywords)

13. presentation of students' work, discussion Rozsah: 0/2 (jednosemestrální kurs otevíraný vždy v zimním semestru) Atestace: Z Kredity: Kredity: 5 Požadavky k zápočtu: aktivní účast na seminářích, samostatné zpracování lingvistického jevu (angličtina) korpusovými metodami a jeho prezentace v závěrečné hodině

Anotace

Cíl semináře

Seminář je určen především pro anglisty, studenty oboru PTA, ale i zájemce z jiných lingvistických oborů, které zajímá kvantitativní pohled na jazyk a využití anglických i českých korpusů při studiu, výzkumu nebo v překladatelské praxi. V průběhu semestru se studenti naučí pracovat s korpusovými manažery KonText (dříve NoSketch Engine) (pro korpusy Českého národního korpusu i BNC a pro paralelní korpusy InterCorp) a BNC-Web (pro British National Corpus) a rovněž si vyzkouší práci s webovými rozhraními pro korpusy COCA a COHA. Dále budou v semináři probírána témata, jako je reprezentativnost korpusů a jejich složení, kolokace, vytváření subkorpusů podle zadaných parametrů, využití korpusů v kontrastivní lingvistice a další. Seminář je vyučován česky, ale hojně využívá anglické terminologie i anglicky psané literatury oboru. Počet studentů v semináři je z kapacitních důvodů omezen na 10. Na seminář volně navazují semináře Angličtina a korpusy II a III pod záštitou ÚAJD, rovněž je možné pokračovat ve studiu korpusové lingvistiky v dalších seminářích vypisovaných ÚČNK.