Metriky účinnosti pro datově řízené modely: případová studie sumarizace textu

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

Využití modelů řízených daty pro sumarizaci textu nebo podobné úlohy se v posledních letech stává velmi běžným. Zatímco většina studií hlásí pouze základní přesnost, není nic známo o schopnosti zmíněných modelů se zlepšit, jsou-li trénovány na větších datech.

V tomto příspěvku definujeme a navrhujeme tři metriky efektivity dat: efektivita úspěšnosti dat, časové nedostatečnosti dat a celkové účinnosti dat. Navrhujeme také jednoduché schema využívající těchto metod a využívající je pro ucelenější hodnocení populárních metod sumarizace textů a generování nadpisů.

Pro druhou z úloh zpracováváme a uvol%nujeme rozsáhlou kolekci 35 miliónů párů abstrakt-název vědeckých článků. Naše výsledky odhalují, že mezi tetovanými metodami je Transformer nejúčinnější pro obě úlohy.

Klíčová slova

metriky účinnosti datově řízené modely případová studie sumarizace textu