Charles Explorer logo
🇬🇧

Statistical Methods in Natural Language Processing I

Class at Faculty of Arts |
ATKL00307

This text is not available in the current language. Showing version "cs".Syllabus

Úvod a motivace

Základní pojmy z teorie pravděpodobnosti a teorie informace

Jazykové modelování; metody vyhlazování

Základy lingvistiky: roviny popisu, morfologie, syntax (povrchová vs. hloubková)

Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.

Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).

Maximální entropie. Princip modelu a odhad parametrů pomocí Generalized Iterative Scaling. Otázky výběru pravidel (features).

This text is not available in the current language. Showing version "cs".Annotation

Cílem je seznámit posluchače se základními pojmy z formální lingvistiky a se základy pravděpodobnostních a statistických metod pro jazykové modelování. Pokračování tématiky lze nalézt ve Statistickém modelování přirozených jazyků II (v LS).