Charles Explorer logo
🇨🇿

Algoritmy rozpoznávání mluvené řeči

Předmět na Matematicko-fyzikální fakulta |
NPFL079

Sylabus

Přehled řečových technologií

- nesamozřejmosti hlasové komunikace,

- hlavní aplikace oboru a jejich architektura,

- použité teorie a modely,

- programátorské nástroje a knihovny,

- knihy a časopisy řečových technologií.

Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3 | DLA C3+C6, částečně opakování z NPFL038)

- struktura a parametry skrytých Markovových modelů(HMM),

- vyhodnocení skóre promluvy (Viterbi algoritmus),

- trénování parametrů HMM (Baum-Welch a Viterbi algoritmus),

- získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů),

- adaptace modelů na mluvčího (MAP, MLLR),

- míra důvěryhodnosti rozpoznávání (confidence measure),

- softwarové nástroje rozpoznávání mluvené řeči (Kaldi).

Modelování jazyka (NPFL067 | JEL C4 | SPO C11 | PSU 5.4)

- metody statistického modelování jazyka,

- n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely,

- strukturované jazykové modely (PCFG),

- odlišnosti modelování mluveného a psaného jazyka,

- transducery a softwarové nástroje jazykového modelování (Kaldi).

Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6)

- prohledávací algoritmy řeči (stavové prostory a heuristiky),

- kombinace akustiky a jazykového modelu (uni-, bi-, trigramy),

- časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy),

- stavově synchronní prohledáván.

Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)

- efektivní manipulace lexikálního stromu,

- seznam N-nejlepších hypotéz a víceprůchodová strategie.

Hlasové dialogové systémy (SPO C17 | PSU C11)

- charakteristiky spontánních dialogů,

- prosodie a struktura dialogu,

- sémantická representace,

- řízení dialogu, detekce emocí,

- Voice XML.

Identifikace řečníka (PSU C9)

- typy systémů,

- vybrané charakteristiky řeči pro rozpoznávání řečníka,

- základní přístupy.

Přednáška volně navazuje na úvodní seminář NPFL038 a vhodně se doplňuje s přednáškami NPFL067, NPFL068, NPFL123.

Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.

Anotace

Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči možňujícími budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů

(HMM, n-gramové a strukturované jazykové modely, FST, grafové modely, heuristické prohledávání, neuronové sítě).