Neuronová pipeline pro generování textu z dat bez trénovacích dat

Publikace na Matematicko-fyzikální fakulta |

2022

Abstrakt

Při trénování systémů pro generování textu z dat na konkrétní doméně dochází k nadměrnému přizpůsobování modelů reprezentaci dat a opakování chyb v trénovacích datech na výstupu. Zkoumáme, jak se obejít bez dotrénovávání jazykových modelů na datasetech pro tuto úlohu a zároveň přitom využít schopností těchto modelů pro povrchovou realizaci.

Inspirováni sekvenčními přístupy navrhujeme generovat text transformací krátkých textů pro jednotlivé položky pomocí posloupnosti modulů natrénovaných na obecných textových operacích: řazení, agregaci a kompresi odstavců. Modely pro provádění těchto operací trénujeme na syntetickém korpusu WikiFluent, který pro tento účel vytváříme z anglické Wikipedie.

Naše experimenty na dvou významných datasetech pro převod RDF trojic na text — WebNLG a E2E — ukazují, že náš přístup umožňuje generování textu z RDF trojic i při absenci trénovacích dat.

Klíčová slova

neuronová pipeline generování textu trénovacích