Jazykové technologie pro výzkum v humanitních oborech

Předmět na Filozofická fakulta |

ATKL00349

Sylabus

Na ukázkových textech většího rozsahu si ukážeme základní metody zpracování textu potřebné pro získání netriviálních informací. Pro češtinu použijeme texty děl Karla Čapka, pro klasickou čínštinu vybrané texty z https://github.com/kanripo, pro další jazyky další díla dle zaměření frekventantů.

Význam a vlastnosti velkých dat unixový shell; nejzákladnější příkazy další unixové příkazy a základy Perlu pro manipulaci s texty textové editory kvantitativní analýza textu porovnání textů a vizualizace rozdílů vyhledávání pomocí regulárních výrazů využití regulárních výrazů pro hromadné úpravy textu odstranění diakritiky, segmentace na věty, tokenizace získávání informací o čínských znacích z databáze Unihan pravidlové automatické určení slovních druhů vytvoření vlastního korpusu

"NLP workflow engines" - GATE, OpenNLP, Treex volání REST API

UDPipe a výběr vhodného modelu, je-li jich pro jazyk více vizualizace analýzy a výsledků

Anotace

Posluchači se seznámí s efektivními nástroji a postupy pro automatické zpracování rozsáhlých textů v různých jazycích. Získané dovednosti usnadní samostatnou vědeckou práci v libovolném oboru, kde se používají rozsáhlá textová data i případné studium počítačové lingvistiky.