Automatic Text Data Processing

Class at Faculty of Arts |

ATKL00345

Syllabus

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla

Čapka a různá další díla v jazycích dle zaměření frekventantů.

- Zpracování textu jako nutný základ (nejen) komputační linvistiky

- Proč používat unixový shell; nejzákladnější příkazy

- další příkazy pro manipulaci s texty

- textové editory

- vyhledávání pomocí regulárních výrazů

- využití regulárních výrazů pro úpravy textu

- základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků

- odstranění diakritiky, segmentace na věty, tokenizace

- pravidlové automatické určení slovních druhů

Annotation

Posluchači se seznámí se základními nástroji pro automatické zpracování textu. Získané dovednosti by měly usnadnit samostatnou vědeckou práci i případné další studium počítačové lingvistiky, kde se praktické zvádnutí těchto nástojů předpokládá.