Charles Explorer logo
🇨🇿

Práce s jazykovými korpusy

Předmět na Filozofická fakulta |
ADE120020

Sylabus

1. Co je to korpus? Jak vzniká? K čemu slouží? Jak ho lze využít? Základní typologie korpusů. Korpusy češtiny a němčiny (DeReKo, ČNK, InterCorp) formou prezentace a společné práce. Podmínky a vytvoření zázemí pro práci s korpusy (laptopy, přístup na internet, registrace do COSMAS II a ČNK. Vyhledání jednoduchých výrazů a společný brainstorming nad možnostmi využití korpusů, jejich mezemi a interpretací.

2.  Zpracovávání textů do korpusů (prezentace), stručný vývoj disciplíny, základní terminologie (token, type, lemma, parser, desambiguace, korpus X korpusový manažer, konkordance ad.). Základní schéma vyhledávání v (COSMAS II.) – výběr archivu, korpusu, formulace nejjednodušších dotazů.

3.  DeReKo (IDS Mannheim) - COSMAS II. - základní funkce korpusového vyhledavače;  Procvičování základního vyhledávání v COSMAS II., regulární znaky, možnosti nastavení (Optionen)

4.  Pokročilé vyhledávání a jeho procvičování v COSMAS II.; víceslovná spojení

5.  Rozšiřující funkce z nabídky COSMAS II.; práce s taggovanými korpusy

6.  Kookkurenční analýza - způsob zadání a vyhodnocování vygenerovaných dat;  procvičování CQL (Corpus Query Language) ; frazémy a kolokace- zvláštní úkol pro korpusovou lingvistiku

7.  Přidružené aplikace – CCDB, SOM apod.; DWDS

8.  Český národní korpus - základní informace, základní vyhledávání

10. Český národní korpus - procvičování vyhledávání, vysvětlení rozšiřujících funkcí,

11. InterCorp

12. SyD, Morfio, Treq, KWords, WaG

13. Závěrečná diskuze nad problematikou korpusové lingvistiky, zadávání závěrečných prací, příp. zápočtový test

Anotace

Práce s jazykovými korpusy je předmětem, v němž se studenti bakalářského studia seznámí s existencí jazykových korpusů a s možnostmi jejich využití v lingvistické praxi. Kurz je zaměřen na praktickou práci a je předstupněm k Semináři z korpusové lingvistiky, který následuje v NMgr. programu.

Kromě seznámení se se základními druhy a vlastnostmi korpusů je důraz kladen na praktickou využitelnost korpusů v každodenním životě lingvisty. Důraz se klade na korpusy češtiny (ČNK) a němčiny (DeReKo a DWDS) vč. přidružených aplikací Kookkurrenzanalyse, CCDB, SOM, resp.

Treq, SyD, Morfio, WaG ad. V oblasti využitelnosti jsou reflektovány potřeby studentů s ohledem na jejich bádání a psaní seminárních a závěrečných prací z ostatních disciplín.