Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací. Pro češtinu použijeme texty děl Karla Čapka, pro klasickou čínštinu vybrané texty z https://github.com/kanripo, pro další jazyky další díla dle zaměření frekventantů.
Význam a vlastnosti velkých dat unixový shell; nejzákladnější příkazy další unixové příkazy a základy Perlu pro manipulaci s texty textové editory kvantitativní analýza textu porovnání textů a vizualizace rozdílů vyhledávání pomocí regulárních výrazů využití regulárních výrazů pro hromadné úpravy textu odstranění diakritiky, segmentace na věty, tokenizace získávání informací o čínských znacích z databáze Unihan pravidlové automatické určení slovních druhů vytvoření vlastního korpusu
"NLP workflow engines" - GATE, OpenNLP, Treex volání REST API
UDPipe a výběr vhodného modelu, je-li jich pro jazyk více vizualizace analýzy a výsledků
Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů v různých jazycích. Získané dovednosti usnadní samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.