Dataset MultiWOZ (Budzianowski et al.,2018) je často užíván na poměřování schopností generovat odpověď z kontextu v případě dialogových systému zaměřených na úkoly. V této práci identifikujeme nekonzistence v předzpracování dat a reportování tří metrik založených na evaluačním korpusu, tj., BLEU skóre, míry Inform a míry Success, v kontextu tohoto datasetu.
Poukazujeme na několik problémů benchmarku MultiWOZ jako je neuspokojivé předzpracování dat, nedostatečné nebo nedostatečně specifikované evaluační metriky, nebo neohebná databáze. Ve spravedlivých podmínkách jsme znovu vyhodnotili 7 end-to-end a 6 policy optimization modelů a ukázali jsme, že jejich původně reportovaná skóre nemohou být přímo srovnávána.
Abychom ulehčili porovnávání budoucích systémů, zveřejňujeme naše soběstačné standardizované evaluační skripty. Rovněž dáváme základní doporučení pro budoucí vyhodnocování založená na evaluačním korpusu.