Hlavní okruhy (zde pro přehlednost tematicky sdružené, pořadí v rámci semestru se částečně liší):
1. pohled "pod kapotu" různých postupů využívaných při zpracování přirozeného jazyka · generování textu · morfologické značkování · klasifikace textu
2. seznámení s příkazovou řádkou, psaní programů pro příkazovou řádku
3. správa zdrojového kódu · organizace / strukturace delších programů, volba textového editoru · verzování (git, https://github.com/) · zveřejňování (free / libre / open-source software)
4. objektově orientované programování v Pythonu · tvorba vlastních nových typů objektů, tzv. tříd · jak poznat situace, kdy se vyplatí po těchto složitějších nástrojích sáhnout
Seminář navazuje na předmět AMLV00058 (Programování pro korpusovou lingvistiku: Python a NLTK). Absolvování předchozího předmětu není přísnou prerekvizitou, nicméně: 1. studenti, kteří jej absolvovali, budou mít při zápisu přednost 2. předmět není vhodný pro začátečníky, předpokládá se předchozí znalost Pythonu přibližně na úrovni prvních pěti kapitol http://www.nltk.org/book/
Seminář je určen pro studenty humanitních, především filologických oborů se zájmem o korpusovou lingvistiku a počítačové zpracování textů. Oproti předchozímu semestru půjdeme více do hloubky: podíváme se na složitější algoritmy používané při zpracování přirozeného jazyka, a zároveň se naučíme psát delší a komplikovanější programy a propojovat je s dalšími existujícími nástroji.