Charles Explorer logo
🇨🇿

AuGPT: Dialog s předtrénovanými jazykovými modely a augmentací dat

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Předtrénované jazykové modely založené na attention, jako je GPT-2, přinesly značný pokrok v end-to-end modelování dialogů. Pro dialog zaměřený na úkoly však představují také značná rizika, jako je nedostatečná korespondence s databází nebo nedostatek rozmanitosti odpovědí.

Abychom tyto problémy vyřešili, zavádíme pro doladění jazykového modelu modifikované trénovací cíle a využíváme masivní rozšíření trénovacích dat pomocí zpětného překladu, čímž zvyšujeme jejich rozmanitost. Dále zkoumáme možnosti kombinace dat z více zdrojů s cílem zlepšit výkonnost na cílové datové sadě.

Naše příspěvky pečlivě vyhodnocujeme pomocí ručních i automatických metod. Náš model dosahuje nejlepších výsledků na datové sadě MultiWOZ a vykazuje konkurenceschopný výkon při lidském hodnocení.