Charles Explorer logo
🇨🇿

Řešení problémů ve statistickém prostředí R

Předmět na Fakulta sociálních věd |
JSB753

Sylabus

Název kurzu: Řešení problémů ve statistickém prostředí R

Rozšířený sylabus: https://docs.google.com/document/d/1an9RkoLvNtPLPuhqSeIwBgXPBEI9shk270QPg1-sS58/edit?usp=sharing  

Přednášející: Mgr. Jan Urban, Ph.D.  

Forma kurzu: přednáška a cvičení (1/1)  

Forma atestace: zápočet (3 kredity)  

Abstrakt

Tento prakticky zaměřený kurz je určen nejen pro studenty a studentky, kteří využívají statistické prostředí R, ale i pro studenty, kteří již využívají jiné analytické softwary a chtěli by nahlédnout do konkrétní práce v prostředí R. Cílem kurzu je reagovat na problémy v úvodních krocích přípravy dat, které studenti nemusí dokázat  odstranit a které jim brání v dalším používání prostředí R. V rámci tohoto kurzu se naučíme generické postupy (např. debugging, čtení vignettes, vyhledávání návodů a tutoriálů apod.), které umožňují problémy samostatně řešit. Kurz se zaměřuje zejména na problémy, které nastávají v následujících krocích při analýze dat: (i) natahování dat v různých formátech do R; (ii) efektivní instalace a načítání balíčků v R; (iii) kontrola a čištění dat; (iv) transformace dat (dlouhé a krátké formáty, Tidy data); (v) ukládání dat, archivace a sdílení dat. V rámci kurzu budeme především rozebírat konkrétní problémy, na které narazili sami posluchači a poskuchačky kurzu, a budeme si ukazovat, jak je možné tyto problémy efektivně řešit. Kurz zvýší schopnost posluchačů a posluchaček samostatně využívat R a řešit nové problémy, na které při práci v R narazí. Druhotným přínosem tohoto kurzu bude, že se posluchači a posluchačky seznamí s dalšími uživateli R a naučí se problémy v R řešit kolektivně, v komunitním duchu projektu R.  

Cíle kurzu

(a) zvýšit obecnu schopnost řešit samostatně problémy, které nastanou při práci v R;

(b) naučit se řešit konkrétní vybrané problémy v prostředí R při přípravě dat, s nimiž se účastníci a účastnice v současnosti potýkají;

(c) seznámit se s efektivními postupy transformace dat (s balíčky dplyr a tidyr);

(d) seznámit se s efektivními způsoby archivace a sdílení dat a skriptů v R s ohledem na principy otevřené vědy.  

Co není cílem kurzu

Tento kurz nenahrazuje systematický úvod do práce v prostředí R a kurzy zaměřené na analýzu dat v prostředí R, přesto si jej však mohou zapsat studenti, kteří mají zkušenosti s jiným analytickým prostředím (SPSS, Jamovi) a chtěli by se naučit využívat prostředí R  

Formát kurzu

Kurz bude kombinovat krátké přednášky na vybraná témata s praktickými cvičeními, během nichž budeme odstraňovat typické problémy, anebo problémy, na které studenti narazí při vlastní práci v prostředí R.  

Vstupní znalosti R

Předchozí znalosti práce v prostředí R nejsou nutnou podmínkou účasti v kurzu (ale jsou výhodou). Podmínkou účasti v kurzu je ochota učit se pracovat v prostředí R.   

Jazyk

Kurz bude vyučován v českém jazyce, ale v kurzu budeme převážně pracovat s materiály v anglickém jazyce.  

Harmonogram

Úvod. Co je R a RStudio, systém práce v R, instalace a načítání balíčků.

Kde a jak hledat pomoc. Identifikace problému a generické způsoby hledání řešení.

Natahování dat do R.

Kontrola a vizualizace dat.

Chybové hlášky 1: typy objektů.

Chybové hlášky 2: chybějící data.

Další časté chybové hlášky.

Základní formáty dat. Dlouhá data, široká data, smíšené typy, Tidy formát.

Transformace dat z jednoho formátu do jiného.

Základní kroky při čištění dat. Duplicity, chybějící hodnoty, logická konzistence.

Ukládání, popis a sdílení dat a skriptů.

Shrnutí častých problémů a jejich řešení.  

Literatura

Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for data science: Import, tidy, transform, visualize, and model data (2nd edition). O’Reilly Media, Inc. (jako open dokument dostupné zde: https://r4ds.hadley.nz/data-visualize)  

(Další literature bude upřesněna v průběhu kurzu.)  

Anotace

Tento prakticky zaměřený kurz je určen nejen pro studenty a studentky, kteří využívají statistické prostředí R, ale i pro studenty, kteří již využívají jiné analytické softwary a chtěli by nahlédnout do konkrétní práce v prostředí R. Cílem kurzu je reagovat na problémy v úvodních krocích přípravy dat, které studenti nemusí dokázat odstranit a které jim brání v dalším používání prostředí R.

V rámci tohoto kurzu se naučíme generické postupy (např. debugging, čtení vignettes, vyhledávání návodů a tutoriálů apod.), které umožňují problémy samostatně řešit. Kurz se zaměřuje zejména na problémy, které nastávají v následujících krocích při analýze dat: (i) natahování dat v různých formátech do R; (ii) efektivní instalace a načítání balíčků v R; (iii) kontrola a čištění dat; (iv) transformace dat (dlouhé a krátké formáty, Tidy data); (v) ukládání dat, archivace a sdílení dat.

V rámci kurzu budeme především rozebírat konkrétní problémy, na které narazili sami posluchači a poskuchačky kurzu, a budeme si ukazovat, jak je možné tyto problémy efektivně řešit. Kurz zvýší schopnost posluchačů a posluchaček samostatně využívat R a řešit nové problémy, na které při práci v R narazí.

Druhotným přínosem tohoto kurzu bude, že se posluchači a posluchačky seznamí s dalšími uživateli R a naučí se problémy v R řešit kolektivně, v komunitním duchu projektu R.