Charles Explorer logo
🇨🇿

Digitalizace a automatický alignment korpusu DIALOG: prosodicky anotovaný korpus českých diskusních pořadů

Publikace na Matematicko-fyzikální fakulta |
2007

Abstrakt

Článek popisuje budování a automatické zpracování audio-visuálního korpusu DIALOG. Korpus DIALOG je prosodicky anotovaný korpus českých televizních diskusí nahrávaných a anotovaných v Ústavu pro jazyk český Akademie věd České republiky.

V současnosti obsahuje více jak 400 VHS 240min kazet a 375 přepsaných pořadů. Popisovaný digitalisační proces a automatický alignment umožnily vznik uživatelsky přívětivého výzkumného prostředí podporujícího zkoumání prosodie češtiny, její analýzu a modelování.

Tento projekt je řešen ve spolupráci s Ústavem formální a aplikované lingvistiky, MFF UK. První veřejně dostupná verze korpusu DIALOG obsahuje 10 revidovaných hodinových pořadů a je přístupná na adrese http://ujc.dialogy.cz.