ELITR Minuting Corpus: Nový dataset pro automatické zápisky z vícestranných jednání v angličtině a češtině

Publikace na Matematicko-fyzikální fakulta |

2022

Abstrakt

Pořizování zápisků je nezbytnou součástí každé schůze, ačkoli cíle, styl a postup této činnosti ("protokolování", jak se říká "zápisům") jsou velmi odlišné). Zápis je relativně nestrukturovaný písemný úkon a je ovlivněn tím, kdo zápis pořizuje a pro koho je zápis pořizován.

S nárůstem online schůzek by automatická tvorba zápisů byla důležitou pomocí pro účastníky schůzek i ty, kteří by mohli schůzku zmeškat. Automatické generování zápisů ze schůzí je však náročný problém, který je způsoben různými faktory včetně kvality automatického rozpoznávání řeči (ASR), veřejné dostupnosti dat o schůzkách, subjektivních znalostí zapisovatele atd.

V této práci představujeme první soubor dat svého druhu o automatickém protokolování. Vytváříme datovou sadu anglických a českých technických projektových schůzek, které se skládají z přepisů vygenerovaných ASR, ručně opravených a zaprotokolovaných několika anotátory.

Náš dataset, ELITR Minuting Corpus, se skládá ze 120 anglických a 59 českých schůzek, které pokrývají př

Klíčová slova

elitr minuting corpus nový dataset automatické zápisky vícestranných jednání angličtině češtině