Charles Explorer logo
🇨🇿

Statistické metody zpracování přirozených jazyků I

Předmět na Filozofická fakulta |
ATKL00307

Sylabus

Úvod a motivace

Základní pojmy z teorie pravděpodobnosti a teorie informace

Jazykové modelování; metody vyhlazování

Základy lingvistiky: roviny popisu, morfologie, syntax (povrchová vs. hloubková)

Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.

Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).

Maximální entropie. Princip modelu a odhad parametrů pomocí Generalized Iterative Scaling. Otázky výběru pravidel (features).

Anotace

Cílem je seznámit posluchače se základními pojmy z formální lingvistiky a se základy pravděpodobnostních a statistických metod pro jazykové modelování. Pokračování tématiky lze nalézt ve Statistickém modelování přirozených jazyků II (v LS).