Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla
Čapka a různá další díla v jazycích dle zaměření frekventantů.
- Zpracování textu jako nutný základ (nejen) komputační linvistiky
- Proč používat unixový shell; nejzákladnější příkazy
- další příkazy pro manipulaci s texty
- textové editory
- vyhledávání pomocí regulárních výrazů
- využití regulárních výrazů pro úpravy textu
- základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků
- odstranění diakritiky, segmentace na věty, tokenizace
- pravidlové automatické určení slovních druhů
Posluchači se seznámí se základními nástroji pro automatické zpracování textu. Získané dovednosti by měly usnadnit samostatnou vědeckou práci i případné další studium počítačové lingvistiky, kde se praktické zvádnutí těchto nástojů předpokládá.