Charles Explorer logo
🇨🇿

Internet a klasifikační metody

Předmět na Matematicko-fyzikální fakulta |
NAIL105

Sylabus

Téma 1. Tři důležité internetové aplikace klasifikačních metod. 1. Filtrace spamu. Klasifikační úlohy vyskytující se při filtraci spamu. Klasifikace spamu na základě obsahu zpráv a na základě metainformací o zprávách. Začlenění klasifikace do celkového procesu filtrace spamu. Příklady existujících spamových filtrů. 2. Doporučovací systémy (recommender systems). Klasifikační úlohy vyskytující se v doporučovacích systémech. Klasifikace při obsahovém filtrování a při kolaborativním filtrování. Příklady existujících doporučovacích systémů založených na obsahovém filtrování a systémů založených na kolaborativním filtrování. 3. Systémy pro odhalení hrozeb v síti (intrusion detection systems). Klasifikační úlohy vyskytující se v systémech pro odhalení hrozeb. Klasifikace anomálního chování sítě jako důležitá komponenta systému pro odhalení hrozeb. Klasifikace přítomnosti a nepřítomnosti anomálního chování. Klasifikace do jednotlivých druhů anomálního chování. Příklady existujících systémů pro odhalení hrozeb v síti. O čem budou zbývající přednášky?

Téma 2. Základní koncepty týkající se klasifikace. Klasifikace a klasifikátory. Binární klasifikace a klasifikace do více tříd. Použití klasifikace do 3 tříd ve spamových filtrech. Koncepty specifické pro binární klasifikaci: pozitivní a negativní třída, falešná pozitivita a falešná negativita. Charakterizace kvality klasifikace pomocí její chybovosti. Zahrnutí různé ceny chyb pro různé třídy. Různá cena falešné pozitivity a falešné negativity při filtraci spamu. Specifické charakteristiky kvality binární klasifikace: správnost, přesnost, citlivost, specificita, F-míra, ROC křivka a plocha pod ní. Charakterizace kvality klasifikace při filtraci spamu. Tvar hranice mezi třídami. Lineární separabilita tříd. Metoda přechodu od lineárně neseparabilních tříd ke třídám lineárně separabilním pomocí jádrových funkcí. Konstrukce klasifikátorů z existujících dat - učení klasifikátorů. Učení spamových filtrů. Přeučení klasifikátoru. Souvislost klasifikace a regrese, klasifikátorů a regresních funkcí. Role regrese v doporučovacích systémech. Odlišnost klasifikace a shlukování. Použití shlukování v doporučovacích systémech.

Téma 3. Hlavní typy klasifikačních metod. Rozdělení klasifikačních metod podle toho, zda hledají hranice mezi třídami. Hlavní přístupy používané v metodách nehledajících hranice: podobnost a odhadování pravděpodobnosti příslušnosti k jednotlivým třídám. Klasifikátory založené na podobnosti nejbližším sousedům se známou příslušností do tříd - k-NN klasifikátory. Použití k-NN klasifikátorů při kolaborativním filtrování. Použití k-NN klasifikátorů při detekci malware. Volba počtu nejbližších sousedů v k- NN klasifikátorech. Míry podobnosti užívané v k-NN klasifikátorech. Měření podobnosti při kolaborativním filtrování. Klasifikátory založené na bodových odhadech pravděpodobnosti příslušnosti k třídám - bayesovské klasifikátory. Bodové odhady pravděpodobnosti příslušnosti k třídám logitovou metodou. Použití bayesovských klasifikátorů ve spamových filtrech. Učení bayesovských spamových filtrů. Narušitelnost učení bayesovských filtrů spamery (bayesian poisoning). Klasifikace založená na odhadech pravděpodobnosti příslušnosti k třídám prokládáním vícerozměrného normálního rozdělení - Fisherova diskriminační analýza. Lineární a kvadratická diskriminační analýza. Diskriminační analýza při klasifikaci obrázků a videí. Klasifikátory hledající hranice mezi třídami pomocí umělých neuronových sítí. Hledání lineární hranice pomocí perceptronů a nelineární hranice pomocí vícevrstvých perceptronů. Použití umělých neuronových sítí pro filtraci spamu. Použití umělých neuronových sítí v doporučovacích systémech. Použití umělých neuronových sítí při odhalování různých druhů hrozeb v síti.

Téma 4. Kdy dělá klasifikátor nejméně chyb na nových vstupech? Přesnost klasifikátoru na nových vstupech - generalizační schopnost klasifikátoru. Předpoklad o zvýšení generalizační schopnosti binárního klasifikátoru při klasifikaci lineárně separabilních tříd se zvětšením šířky pásu mezi třídami. Hledání klasifikátoru s nejširším pásem mezi třídami jako optimalizační úloha. Role vektorů z opěrných nadrovin tříd. Klasifikátory pro lineárně separabilní třídy konstruované pomocí opěrných vektorů - SVM klasifikátory (support vector machines). Použití SVM klasifikátorů pro lineárně neseparabilní třídy. Proč je pro SVM klasifikátory výhodné používat přechod od lineárně neseparabilních tříd ke třídám lineárně separabilním pomocí jádrových funkcí? Používání SVM klasifikátorů při klasifikaci do více tříd. Rozšíření SVM klasifikátorů o toleranci vůči šumu. Použití SVM klasifikátorů pro filtraci spamu. Použití SVM klasifikátorů v doporučovacích systémech. Použití SVM klasifikátorů při detekci malware. Aktivní učení a jeho relevance pro SVM klasifikátory. Využití aktivního učení v doporučovacích systémech.

Téma 5. Kdy je klasifikace srozumitelná uživateli? Snaha o srozumitelné vyjádření klasifikace pomocí jazyka formální logiky. Klasifikační pravidla: implikace a ekvivalence booleovské a fuzzy logiky. Získávání klasifikačních pravidel z dat pomocí genetických a dalších evolučních algoritmů. Michiganský a pittsburgský přístup k evolučnímu hledání souborů klasifikačních pravidel. Použití klasifikačních pravidel pro filtraci spamu. Použití klasifikačních pravidel v doporučovacích systémech. Použití klasifikačních pravidel při detekci malware. Získávání pravidel z dat pomocí observačního kalkulu. Konstrukce observačních pravidel pomocí odhadů pravděpodobností. Konstrukce observačních pravidel pomocí testování hypotéz. Klasifikační stromy a získávání klasifikačních pravidel z nich. Učení klasifikačních stromů. Prořezávání klasifikačních stromů. Použití klasifikačních stromů v doporučovacích systémech. Další internetové aplikace klasifikačních stromů.

Téma 6. Tým zvládne více než jedinec. Spojování více klasifikátorů do týmu. Zahrnutí různé důvěry různým klasifikátorům v týmu. Týmy klasifikátorů různých druhů a soubory (ensembles) klasifikátorů stejného druhu. Použití týmu různých klasifikátorů při klasifikaci multimediálních dat. Metody vytváření týmů klasifikátorů. Bagging, boosting, hierarchické týmy. Použití souborů klasifikátorů při detekci malware. Soubory klasifikačních stromů - klasifikační náhodné lesy. Typy náhodných lesů. Aktivní učení náhodných lesů. Použití náhodných lesů pro filtraci spamu. Použití náhodných lesů v doporučovacích systémech.

Náplň cvičení: 1. Seznámení s vývojovým prostředím Matlab pro ty, kdo ho dosud nepoužívali. 2. Představení možných semestrálních prací, které budou studenti na zápočet doma vypracovávat + jednoduché příklady k tématu 2. 3.-6. Jednoduché příklady k tématům 3.-6. + konzultace k semestrálním pracím.

Anotace

V rámci předmětu se student seznámí s klasifikačními metodami používanými ve třech důležitých internetových nebo obecně síťových aplikacích: při filtraci spamu, v doporučovacích systémech a v systémech pro odhalení hrozeb v síti. Dozví se však více než jenom to, jak se při řešení těchto tří problémů klasifikace provádí.

Na pozadí uvedených aplikací získá celkový přehled o základech klasifikačních metod. Předmět je vyučován v dvoutýdenním cyklu v rozsahu 2 hodiny přednášek a 2 hodiny cvičení.

Na cvičeních studenti jednak implementují jednoduché příklady k tématům z přednášky.