Charles Explorer logo
🇨🇿

TEAM UFAL @ CreativeSumm 2022: few-shot přístup založený na BART a SamSum pro kreativní sumarizaci

Publikace na Matematicko-fyzikální fakulta |
2022

Abstrakt

Tato práce s popisem systému podrobně popisuje přístup TEAM UFAL pro SummScreen, TVMegasite podúkol sdíleného úkolu CreativeSumm. Podúkol se zabývá vytvářením souhrnů pro dialogy z oper TV Soap.

Využili jsme BART na bázi předcvičeného modelu vyladěného na SamSum dialouge sumarizační datové sadě. Několik příkladů z AutoMin datové sady a datové sady poskytnuté organizátory bylo také vloženo do dat jako cíl učení na několik záběrů.

Dodatečná data byla ručně rozdělena na bloky na základě různých hranic v souhrnu a dialogovém souboru. Pro odvození volíme podobnou strategii jako špičkový tým na AutoMin 2021, kde jsou data rozdělena na bloky, buď na [SCENE_CHANGE] nebo přesahující předdefinovanou délku tokenu, aby se pro jeden příklad vešlo maximum tokenu možného v předcvičeném modelu.

Finální tréninková strategie byla zvolena na základě toho, jak přirozené odpovědi vypadaly, namísto toho, jak dobře model fungoval na automatizovaných vyhodnocovacích metrikách, jako je ROGUE.