Statistické metody zpracování přirozených jazyků I

🇨🇿

Statistické metody zpracování přirozených jazyků I

Předmět na Matematicko-fyzikální fakulta |

NPFL067

1 osoba2 studijní programy

Sylabus

Úvod a motivace

Základní pojmy z teorie pravděpodobnosti a teorie informace

Jazykové modelování; metody vyhlazování

Základy lexikografie a třídy slov. Lexikografická definince vzájemné informace, použití t-testu a X2 testu. Základní algoritmus budování hierarchie tříd podobnosti slov z hlediska jazykového modelování; otázky efektivnosti algoritmu.

Skryté Markovovy modely (HMM). Trellis jako základní datová struktura, Viterbiho algoritmus. Odhady parametrů velkých modelů, řízené a neřízené učení, použití EM algoritmu (Forward-backward, Baum-Welch).

Anotace

Cílem je seznámit posluchače se základními pojmy z formální lingvistiky a se základy pravděpodobnostních a statistických metod pro jazykové modelování. Pokračování tématiky lze nalézt ve Statistickém modelování přirozených jazyků II (v LS).