Každý model je pouze tak dobrý, jak dobrá jsou data použitá k jeho trénování. V této práci představujeme nový dataset, získaný sloučením čtyř veřejně dostupných korpusů pro task-oriented dialogy v několika doménách (MultiWOZ 2.2, CamRest676, DSTC2 a Schema-Guided Dialogue Dataset).
Touto cestou ověřujeme, že je možné vytvořit sjednocující ontologii a anotační schéma pokrývající několik domém s vyvinutím relativně malého úsilí. V práci analyzujeme charakteristiky získaného datasetu ve třech dimenzích: jazyk, obsah informací a vliv na kvalitu modelu.
Zaměřujeme se na aspekty u kterých je velká šance že přispějí ke zlepšení úspěšnosti modellu. Dále detailně vyhodnocujeme kvalitu dialogů vygenerovaných z modelu natrénovaného na našich datech.
Pro trénování využíváme modely MarCo a GPT-2. Ač jsme nepotvrdili významné zlepšení úspěšnosti sledování dialogového stavu, ukazujeme, že zapojení více zdrojů dat zlepšuje schopnost modelovat jazyk a přispívá k lepší konzistenci.