Charles Explorer logo
🇨🇿

Záznamy jednání českého parlamentu jako trénovací data pro ASR

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Prezentuji způsob, jak využít stenografované záznamy jednání PSPČR pro účely trénování systémů rozpoznávání řeči. V článku je uvedena metoda pro získání dat, zarovnání na úrovni slov a výběr spolehlivých částí nepřesného přepisu.

Konečně prezentuji systém rozpoznávání řeči natrénovaný na těchto i jiných datech.