Přehled řečových technologií
- nesamozřejmosti hlasové komunikace,
- hlavní aplikace oboru a jejich architektura,
- použité teorie a modely,
- programátorské n ástroje a knihovny,
- knihy a časopisy řečových technologií.
Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3 | DLA C3+C6, částečně opakování z NPFL038)
- struktura a parametry skrytých Markovových modelů(HMM),
- vyhodnocení skóre promluvy (Viterbi algoritmus),
- trénování parametrů HMM (Baum-Welch a Viterbi algoritmus),
- získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů),
- adaptace modelů na mluvčího (MAP, MLLR),
- míra důvěryhodnosti rozpoznávání (confidence measure),
- softwarové nástroje rozpoznávání mluvené řeči (Kaldi).
Modelování jazyka (NPFL067 | JEL C4 | SPO C11 | PSU 5.4)
- metody statistického modelování jazyka,
- n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely,
- strukturované jazykové modely (PCFG),
- odlišnosti modelování mluveného a psaného jazyka,
- transducery a softwarové nástroje jazykového modelování (Kaldi).
Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6)
- prohledávací algoritmy řeči (stavové prostory a heuristiky),
- kombinace akustiky a jazykového modelu (uni-, bi-, trigramy),
- časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy),
- stavově synchronní prohledáván.
Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10)
- efektivní manipulace lexikálního stromu,
- seznam N-nejlepších hypotéz a víceprůchodová strategie.
Hlasové dialogové systémy (SPO C17 | PSU C11)
- charakteristiky spontánních dialogů,
- prosodie a struktura dialogu,
- sémantická representace,
- řízení dialogu, detekce emocí,
- Voice XML.
Identifikace řečníka (PSU C9)
- typy systémů,
- vybrané charakteristiky řeči pro rozpoznávání řečníka,
- základní přístupy.
Přednáška volně navazuje na úvodní seminář NPFL038 a vhodně se doplňuje s přednáškami NPFL067, NPFL068, NPFL123.
Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.
Přednáška provádí posluchače současnými postupy a nástroji počítačového zpracování mluvené řeči možňujícími budovat systémy pro automatický přepis a rozpoznávání mluvené řeči, hlasové dialogové systémy či hlasovou identifikaci mluvčích. Budou popsány principy, příprava a dekódovací algoritmy akustických a jazykových modelů
(HMM, n-gramové a strukturované jazykové modely, FST, grafové modely, heuristické prohledávání, neuronové sítě).