1. Úvod - motivace pro vytváření lingvisticky anotovaných dat, podstata anotování - klasifikace jazykových dat, možnosti využití - využití dat pro evaluaci úspěšnosti úloh zpracování přirozeného jazyka
2. Korpusy - typologie korpusů, sady značek - příklady korpusů, Český národní korpus - paralelní korpusy - vyhledávání v korpusech
3. Treebanky - složkové a závislostní syntaktické struktury, převoditelnost - hloubkové syntaktické stromy - příklady treebanků
4. Počítačová lexikografie - typy lexikální informace - příklady lexikálních dat (flektivní a derivační slovníky, wordnety, valenční slovníky, překladové slovníky apod.)
5. Další typy jazykových dat - korpusy s anotací pojmenovaných entit, sentimentu, dialogových aktů atd.
6. Tvorba datových zdrojů z pohledu autorských práv, licence
Cílem přednášky je poskytnout studentům přehled o současném dění a trendech v oblasti Language Data Resources. Budou popsány vybrané typy anotací nad daty korpusové a slovníkové povahy a bude procvičeno zpracování takových dat pomocí softwarových nástrojů, a to zejména v programovacím jazyce Python.
Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.