Statistical Methods in Natural Language Processing II

Class at Faculty of Arts |

ATKL00308

Syllabus

Úvod a motivace, opakování

Vyhodnocování experimentů. Základní pojmy: recall, precision, accuracy, F-measure. Trénovací vs. testovací data. Použití křížové entropie a perplexity pro vyhodnocování v případech modelů částí systémů.

Značkování (diskrétní klasifikace). Typické případy: morfologické značkování. Algoritmy morfologické analýzy a syntézy. Metody značkování vč. nestatistických. Statistické značkování: transformation-based learning (TBL), značkování pomocí skrytých Markovových modelů, a značkování pomocí "feature-based" systemů a metody maximální entropie.

Syntaktická analýza (parsing). Statistické vs. nestatistické metody. Shift-reduce parsing pomocí tabulek. Pravděpodobnostní bezkontextové gramatiky (PCFG) a modely na nich založené. Odhad parametrů PCFG.

Přehled metod statistického strojového překladu.

Annotation

Přednáška navazuje na Statistické metody zpracování přirozených jazyků I.

Seznámí posluchače s pokročilejšími úlohami statistického zpracování přirozeného jazyka (tagging, parsing), s prováděním a vyhodnocováním experimentů v úlohách zpracování přirozeného jazyka obecně, a s používáním a budováním korpusů pro účely statistického zpracování jazyka. Obsahem přednášky je i krátký úvod do problematiky statistického strojového překladu.