Charles Explorer logo
🇨🇿

Základy rozpoznávání a generování mluvené řeči

Předmět na Matematicko-fyzikální fakulta |
NPFL038

Sylabus

Úvod do produkce a vnímání řeči.

Základní principy automatického zpracování řeči (HMM)

- rozpoznávání izolovaných slov,

- definice výstupních pravděpodobností,

- Baum-Welch trénovací algoritmus,

- rozpoznávání a Viterbi algoritmus,

- rozpoznávání plynulé řeči,

- adaptace modelů na mluvčího.

Popis softwarového nářadí HTK

- moduly pro přípravu dat,

- moduly pro trénování, rozpoznávání a testování.

Příprava dat

- gramatika úlohy,

- jazykový model,

- fonetický slovník,

- nahrání dat, jejich přepis a kódování.

Vytvoření HMM monofonémů

- vytvoření startovních modelů bez znalosti časových hranic fonémů,

- ošetření modelu ticha,

- automatické doladění přepisů.

Vytvoření HMM trifonémů

- převod monofonému na trifonémy,

- trifonémové sdílení stavů pomocí rozhodovacích stromů,

- zjemnění pravděpodobnostních funkcí.

Metody vyhodnocení úspešnosti rozpoznávače.

Základní principy automatického generování řeči.

Analýza prosodie mluvené řeči.

Anotace

Tato přednáška se zabývá rozpoznáváním řeči, generováním řeči, extrakcí hlasových rysů a modelováním charakteristik výslovnosti. Zvláštní pozornost je věnována Skrytým Markovovým modelům použitým na řeč (FFT, n-dimenzionální klastrování, extrakci hodnot parametrů z dat, fonetické reprezentaci, prozodické analýze apod.) a jejich DNN-HMM hybridním modelům.

Součástí cvičení je natrénování vlastních modelů rozpoznávání a generování řeči.