Charles Explorer logo
🇬🇧

Automatic Text Data Processing

Class at Faculty of Arts |
ATKL00345

This text is not available in the current language. Showing version "cs".Syllabus

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací a ověření hypotéz. Pravděpodobně použijeme texty děl Karla

Čapka a různá další díla v jazycích dle zaměření frekventantů.

- Zpracování textu jako nutný základ (nejen) komputační linvistiky

- Proč používat unixový shell; nejzákladnější příkazy

- další příkazy pro manipulaci s texty

- textové editory

- vyhledávání pomocí regulárních výrazů

- využití regulárních výrazů pro úpravy textu

- základní principy formulace a ověřování hypotéz, aplikace na data, přesnost, úplnost, vypovídací hodnota výsledků

- odstranění diakritiky, segmentace na věty, tokenizace

- pravidlové automatické určení slovních druhů

This text is not available in the current language. Showing version "cs".Annotation

Posluchači se seznámí se základními nástroji pro automatické zpracování textu. Získané dovednosti by měly usnadnit samostatnou vědeckou práci i případné další studium počítačové lingvistiky, kde se praktické zvádnutí těchto nástojů předpokládá.