Pořizování zápisků je nezbytnou součástí každé schůze, ačkoli cíle, styl a postup této činnosti ("protokolování", jak se říká "zápisům") jsou velmi odlišné). Zápis je relativně nestrukturovaný písemný úkon a je ovlivněn tím, kdo zápis pořizuje a pro koho je zápis pořizován.
S nárůstem online schůzek by automatická tvorba zápisů byla důležitou pomocí pro účastníky schůzek i ty, kteří by mohli schůzku zmeškat. Automatické generování zápisů ze schůzí je však náročný problém, který je způsoben různými faktory včetně kvality automatického rozpoznávání řeči (ASR), veřejné dostupnosti dat o schůzkách, subjektivních znalostí zapisovatele atd.
V této práci představujeme první soubor dat svého druhu o automatickém protokolování. Vytváříme datovou sadu anglických a českých technických projektových schůzek, které se skládají z přepisů vygenerovaných ASR, ručně opravených a zaprotokolovaných několika anotátory.
Náš dataset, ELITR Minuting Corpus, se skládá ze 120 anglických a 59 českých schůzek, které pokrývají př