ÚVOD / Studijní obory / Sylaby / Statistické metody v analýze dat

Statistické metody v analýze dat

Cílem předmětu je poskytnout studentům úvod do mnoha různých typů kvantitativních výzkumných metod a statistických technik pro analýzu dat. Kurz začíná se zaměřením na měření, inferenční statistiky a kauzální odvozování. Poté je představena celá řada statistických technik a metod s praktickým využitím primárně jazyka R. Kurz je klíčovým teoreticko-aplikačním základem, který je nutný pro studium v dalších kurzech studijního programu.

Sylabus předmětu

1. Statistická výpočetní prostředí – Cílem výukového bloku je podat přehled vyučovaných metod a ujasnění prerekvizitních znalostí ze statistiky. Dále také seznámení se s výpočetními prostředími, které budou v kurzu používané realizací základních statistických úloh.
2. Deskriptivní statistika – Cílem bloku je vysvětlení metod deskriptivní statistiky vhodné k popisu dat a jejich ozkoušení ve výpočetním prostředí.
3. Problémy v datech – Cílem tohoto bloku je popis metod diagnostiky a řešení nejčastějších problémů v datech, které jsou spojené s dimenzionalitou, odlehlými hodnotami, nekonzistencí, chybějícími hodnotami, nenumerickými daty atd.
4. Transformace dat – Transformace dle typu proměnné, linearizace, normalizace a diskretizace (binning).
5. Redukce dimenzionality dat – Redukce dimenzionality v případě numerických i kategoriálních dat pomocí rozličných metod, PCA a vícerozměrné škálování. 
6. Redukce objemu dat – Tvorba výběrového vzorku a balancování tříd
7. Úvod do shlukové analýzy – Míry vzdáleností, Hierarchické shlukování, nehierarchické shlukování, požadavky kladené na metody shlukování.
8. Fuzzy shluková analýza – fuzzy hodnoty a jejich aritmetika, použití fuzzy v metodách shlukování
9. Logistická regrese – základy logistické regrese a její použití na analýzu dat
10. Diskriminační analýza – pokročilé metody diskriminační analýz
11. Validace získaných modelů – Hodnocení modelu, návrh kontrolních skupin, stratifikace atd.
12. Použití stromů – klasifikační a regresní stromy, random forest

Organizace výuky

Prezenční forma

Výuka probíhá ve 12 přednáškách po 1,5 hodině a 12 seminářích po 3 hodinách.

Doporučená literatura

  • HASTIE, Trevor., Robert. TIBSHIRANI a J. H. FRIEDMAN. The elements of statistical learning: data mining, inference, and prediction. 2nd ed. New York, NY: Springer, c2009. ISBN isbn978-0-387-84857-0.
  • ZHAO, Yanchang. R and data mining: examples and case studies. Boston: Academic Press, an imprint of Elsevier, 2013. ISBN 978-0-12-396963-7.
  • VENABLES, W.N., D.M. SMITH a AND THE R DEVELOPMENT CORE TEAM. An introduction to R notes on R, a programming environment for data analysis and graphics. Version 2.7.2. [Wien, Austria: Dept. of Statistics and Mathematics, Wirtschaftsuniversität Wien, 2008. ISBN 3900051127.      
  • GUYON, Isabelle. Feature extraction: foundations and applications. New York: Springer-Verlag, c2006. ISBN 3540354875.