Charles Explorer logo
🇨🇿

Dobývání znalostí

Předmět na Matematicko-fyzikální fakulta |
NDBI023

Sylabus

Úvod do problematiky dobývání znalostí

Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí.

Základní principy strojového učení – učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva.

Základní paradigmata procesu dobývání znalostí

Pořizování, příprava a předzpracování dat – vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné.

Transformace, redukce a čištění dat &ndash; vztahy mezi veličinami (odhad vzájemné podobnosti vzorů, testování hypotéz, korelační, regresní, diskriminační a shluková analýza), redukce dimenzionality.</li?

Vyhodnocování získaných výsledků &ndash; křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting).

Metody pro dobývání asociačních pravidel

Analýza nákupního košíku &ndash; časté položky, asociační pravidla, jejich formulace a základní charakteristiky.

Generování kombinací &ndash; algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat.

Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.).

Metody pro klastrovou analýzu k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů.

Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování.

Pokročilé přístupy & škálovatelné techniky (CLARANS, BIRCH, CURE), analýza odlehlých vzorů

Metody pro klasifikaci a predikci dat

Rozhodovací stromy a jejich indukce &ndash; algoritmy ID3, C4.5, CART a CHAID.

Pravděpodobnostní klasifikátory &ndash; Bayesovské modely a techniky pro jejich učení a inferenci.

Přírodou inspirované modely &ndash; umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy.

Anotace

Obrovské množství zpracovávaných a uchovávaných dat vede ke snaze "přeložit" tyto údaje do smysluplné informace - dobývání znalostí. Cílem přednášky je seznámit studenty se základními pojmy a technikami používanými v oblasti dobývání znalostí.

Součástí kurzu bude i jednoduchý projekt s využitím metod pro dobývání znalostí v praxi, především v oblasti ekonomie a WWW, ale i dalších. Předpokládá se předchozí zvládnutí základních matematických dovedností a programování na úrovni běžného bakalářského studia informatiky.