Charles Explorer logo
🇨🇿

SumeCzech: Velký český summarizace dataset na základě zpráv

Publikace na Matematicko-fyzikální fakulta |
2018

Abstrakt

Shrnutí dokumentu je dobře studovaným NLP úkolem. Se vznikem modelů umělé neuronové sítě se zvyšuje souhrnná výkonnost, stejně jako požadavky na výcvikové údaje.

Pro Čechy je však k dispozici pouze několik datových souborů, z nichž žádný není zvlášť velký. Kromě toho bylo shrnutí vyhodnoceno převážně na angličtině, přičemž běžně používaná metrika ROUGE je specifická pro angličtinu.

V tomto příspěvku se snažíme řešit obě otázky. Představujeme SumeCzech, český datový soubor pro sumarizaci zpráv.

Obsahuje více než milion dokumentů, z nichž každá obsahuje nadpis, několik věty dlouhý abstrakt a úplný text. Sadu dat lze stáhnout pomocí dodaných skriptů, které jsou k dispozici na adrese http://hdl.handle.net/11234/1-2615.

Vyhodnocujeme několik souhrnných základních dat na množině dat, včetně silného abstrakčního přístupu založeného na architektuře neuronových sítí Transformeru. Hodnocení se provádí jazykově-agnostickou variantou ROUGE.