Název kurzu: Řešení problémů ve statistickém prostředí R
Rozšířený sylabus: https://docs.google.com/document/d/1an9RkoLvNtPLPuhqSeIwBgXPBEI9shk270QPg1-sS58/edit?usp=sharing
Přednášející: Mgr. Jan Urban, Ph.D.
Forma kurzu: přednáška a cvičení (1/1)
Forma atestace: zápočet (3 kredity)
Abstrakt
Tento prakticky zaměřený kurz je určen nejen pro studenty a studentky, kteří využívají statistické prostředí R, ale i pro studenty, kteří již využívají jiné analytické softwary a chtěli by nahlédnout do konkrétní práce v prostředí R. Cílem kurzu je reagovat na problémy v úvodních krocích přípravy dat, které studenti nemusí dokázat odstranit a které jim brání v dalším používání prostředí R. V rámci tohoto kurzu se naučíme generické postupy (např. debugging, čtení vignettes, vyhledávání návodů a tutoriálů apod.), které umožňují problémy samostatně řešit. Kurz se zaměřuje zejména na problémy, které nastávají v následujících krocích při analýze dat: (i) natahování dat v různých formátech do R; (ii) efektivní instalace a načítání balíčků v R; (iii) kontrola a čištění dat; (iv) transformace dat (dlouhé a krátké formáty, Tidy data); (v) ukládání dat, archivace a sdílení dat. V rámci kurzu budeme především rozebírat konkrétní problémy, na které narazili sami posluchači a poskuchačky kurzu, a budeme si ukazovat, jak je možné tyto problémy efektivně řešit. Kurz zvýší schopnost posluchačů a posluchaček samostatně využívat R a řešit nové problémy, na které při práci v R narazí. Druhotným přínosem tohoto kurzu bude, že se posluchači a posluchačky seznamí s dalšími uživateli R a naučí se problémy v R řešit kolektivně, v komunitním duchu projektu R.
Cíle kurzu
(a) zvýšit obecnu schopnost řešit samostatně problémy, které nastanou při práci v R;
(b) naučit se řešit konkrétní vybrané problémy v prostředí R při přípravě dat, s nimiž se účastníci a účastnice v současnosti potýkají;
(c) seznámit se s efektivními postupy transformace dat (s balíčky dplyr a tidyr);
(d) seznámit se s efektivními způsoby archivace a sdílení dat a skriptů v R s ohledem na principy otevřené vědy.
Co není cílem kurzu
Tento kurz nenahrazuje systematický úvod do práce v prostředí R a kurzy zaměřené na analýzu dat v prostředí R, přesto si jej však mohou zapsat studenti, kteří mají zkušenosti s jiným analytickým prostředím (SPSS, Jamovi) a chtěli by se naučit využívat prostředí R
Formát kurzu
Kurz bude kombinovat krátké přednášky na vybraná témata s praktickými cvičeními, během nichž budeme odstraňovat typické problémy, anebo problémy, na které studenti narazí při vlastní práci v prostředí R.
Vstupní znalosti R
Předchozí znalosti práce v prostředí R nejsou nutnou podmínkou účasti v kurzu (ale jsou výhodou). Podmínkou účasti v kurzu je ochota učit se pracovat v prostředí R.
Jazyk
Kurz bude vyučován v českém jazyce, ale v kurzu budeme převážně pracovat s materiály v anglickém jazyce.
Harmonogram
Úvod. Co je R a RStudio, systém práce v R, instalace a načítání balíčků.
Kde a jak hledat pomoc. Identifikace problému a generické způsoby hledání řešení.
Natahování dat do R.
Kontrola a vizualizace dat.
Chybové hlášky 1: typy objektů.
Chybové hlášky 2: chybějící data.
Další časté chybové hlášky.
Základní formáty dat. Dlouhá data, široká data, smíšené typy, Tidy formát.
Transformace dat z jednoho formátu do jiného.
Základní kroky při čištění dat. Duplicity, chybějící hodnoty, logická konzistence.
Ukládání, popis a sdílení dat a skriptů.
Shrnutí častých problémů a jejich řešení.
Literatura
Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for data science: Import, tidy, transform, visualize, and model data (2nd edition). O’Reilly Media, Inc. (jako open dokument dostupné zde: https://r4ds.hadley.nz/data-visualize)
(Další literature bude upřesněna v průběhu kurzu.)
Tento prakticky zaměřený kurz je určen nejen pro studenty a studentky, kteří využívají statistické prostředí R, ale i pro studenty, kteří již využívají jiné analytické softwary a chtěli by nahlédnout do konkrétní pr áce v prostředí R. Cílem kurzu je reagovat na problémy v úvodních krocích přípravy dat, které studenti nemusí dokázat odstranit a které jim brání v dalším používání prostředí R.
V rámci tohoto kurzu se naučíme generické postupy (např. debugging, čtení vignettes, vyhledávání návodů a tutoriálů apod.), které umožňují problémy samostatně řešit. Kurz se zaměřuje zejména na problémy, které nastávají v následujících krocích při analýze dat: (i) natahování dat v různých formátech do R; (ii) efektivní instalace a načítání balíčků v R; (iii) kontrola a čištění dat; (iv) transformace dat (dlouhé a krátké formáty, Tidy data); (v) ukládání dat, archivace a sdílení dat.
V rámci kurzu budeme především rozebírat konkrétní problémy, na které narazili sami posluchači a poskuchačky kurzu, a budeme si ukazovat, jak je možné tyto problémy efektivně řešit. Kurz zvýší schopnost posluchačů a posluchaček samostatně využívat R a řešit nové problémy, na které při práci v R narazí.
Druhotným přínosem tohoto kurzu bude, že se posluchači a posluchačky seznamí s dalšími uživateli R a naučí se problémy v R řešit kolektivně, v komunitním duchu projektu R.