Shrnutí dokumentu je dobře studovaným NLP úkolem. Se vznikem modelů umělé neuronové sítě se zvyšuje souhrnná výkonnost, stejně jako požadavky na výcvikové údaje.
Pro Čechy je však k dispozici pouze několik datových souborů, z nichž žádný není zvlášť velký. Kromě toho bylo shrnutí vyhodnoceno převážně na angličtině, přičemž běžně používaná metrika ROUGE je specifická pro angličtinu.
V tomto příspěvku se snažíme řešit obě otázky. Představujeme SumeCzech, český datový soubor pro sumarizaci zpráv.
Obsahuje více než milion dokumentů, z nichž každá obsahuje nadpis, několik věty dlouhý abstrakt a úplný text. Sadu dat lze stáhnout pomocí dodaných skriptů, které jsou k dispozici na adrese http://hdl.handle.net/11234/1-2615.
Vyhodnocujeme několik souhrnných základních dat na množině dat, včetně silného abstrakčního přístupu založeného na architektuře neuronových sítí Transformeru. Hodnocení se provádí jazykově-agnostickou variantou ROUGE.