Kurz je zaměřen na praktické aspekty zpracování a přípravy dat v oblasti Digital Humanities. Kurz je určen pro studenty všech humanitních oborů, byť postupy a materiály použité v kurzu vycházejí především z potřeb lingvistů a historiků.
Účast v kurzu vyžaduje základní dovednosti v oblasti IT, není ale nutná žádná předchozí zkušenost s nástroji či postupy využívanými v kurzu.
Jednotlivé hodiny obvykle začínají krátkým uvedením zpravidla online a veřejně dostupného zdroje dat, způsobu jeho využití, možnostmi, jak z něj získat data a pokračuje nástroji i technikami užitečnými pro zpracování získaných dat tak, aby je bylo možné dále analyzovat. Na závěr hodiny může dojít i na ukázky různých analýz, analýza ale není posláním tohoto kurzu. Studenti, kteří se chtějí seznámit s datově analytickými metodami doporučujeme např. kurzy Statistics (not only with R) for corpus and quantitative linguistics (AMLV00046), English Diachronic Corpora (AAA500147) apod.
Nástroje, jejichž využití se v kurzu vyučuje, jsou např. textové editory s pokročilou implementací regulérních výrazů (JEdit, EditPad), XML editory (JEdit or oXygen), tabulkové procesory (Microsoft Excel), relační databáze (MS Excel PowerPivot, MySQL), programovací jazyky vhodné k práci s textovými daty (Perl, Python, R) atp. Konkrétní nástroje a techniky závisí na přáních a potřebách studentů v daném semestru (neváhejte přijít s vlastními projekty).