Zdroje jazykových dat

Předmět na Matematicko-fyzikální fakulta |

NPFL070

Sylabus

1. Úvod - motivace pro vytváření lingvisticky anotovaných dat, podstata anotování - klasifikace jazykových dat, možnosti využití - využití dat pro evaluaci úspěšnosti úloh zpracování přirozeného jazyka

2. Korpusy - typologie korpusů, sady značek - příklady korpusů, Český národní korpus - paralelní korpusy - vyhledávání v korpusech

3. Treebanky - složkové a závislostní syntaktické struktury, převoditelnost - hloubkové syntaktické stromy - příklady treebanků

4. Počítačová lexikografie - typy lexikální informace - příklady lexikálních dat (flektivní a derivační slovníky, wordnety, valenční slovníky, překladové slovníky apod.)

5. Další typy jazykových dat - korpusy s anotací pojmenovaných entit, sentimentu, dialogových aktů atd.

6. Tvorba datových zdrojů z pohledu autorských práv, licence

Anotace

Cílem přednášky je poskytnout studentům přehled o současném dění a trendech v oblasti Language Data Resources. Budou popsány vybrané typy anotací nad daty korpusové a slovníkové povahy a bude procvičeno zpracování takových dat pomocí softwarových nástrojů, a to zejména v programovacím jazyce Python.

Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.