Charles Explorer logo
🇨🇿

Programování pro korpusovou lingvistiku: Python a NLTK II

Předmět na Filozofická fakulta |
AMLV00063

Sylabus

Hlavní okruhy (zde pro přehlednost tematicky sdružené, pořadí v rámci semestru se částečně liší):

1. pohled "pod kapotu" různých postupů využívaných při zpracování přirozeného jazyka ·         generování textu ·         morfologické značkování ·         klasifikace textu

2. seznámení s příkazovou řádkou, psaní programů pro příkazovou řádku

3. správa zdrojového kódu ·         organizace / strukturace delších programů, volba textového editoru ·         verzování (git, https://github.com/) ·         zveřejňování (free / libre / open-source software)

4. objektově orientované programování v Pythonu ·         tvorba vlastních nových typů objektů, tzv. tříd ·         jak poznat situace, kdy se vyplatí po těchto složitějších nástrojích sáhnout

Anotace

Seminář navazuje na předmět AMLV00058 (Programování pro korpusovou lingvistiku: Python a NLTK). Absolvování předchozího předmětu není přísnou prerekvizitou, nicméně: 1. studenti, kteří jej absolvovali, budou mít při zápisu přednost 2. předmět není vhodný pro začátečníky, předpokládá se předchozí znalost Pythonu přibližně na úrovni prvních pěti kapitol http://www.nltk.org/book/

Seminář je určen pro studenty humanitních, především filologických oborů se zájmem o korpusovou lingvistiku a počítačové zpracování textů. Oproti předchozímu semestru půjdeme více do hloubky: podíváme se na složitější algoritmy používané při zpracování přirozeného jazyka, a zároveň se naučíme psát delší a komplikovanější programy a propojovat je s dalšími existujícími nástroji.