Představujeme systém pro automatický odhad kvality výstupů generování přirozeného jazyka založený na rekurentních neuronových sítích, který se učí zároveň přiřazovat numerická absolutní hodnocení jednotlivým výstupům a dodávat relativní hodnocení pro páry různých výstupů. Druhá úloha se trénuje pomocí párové hinge chyby nad skóre ze dvou kopií sítě pro absolutní hodnocení.
Pro zlepšení kvality absolutního hodnocení používáme i učení relativního hodnocení a syntetická trénovací data: syntetizujeme trénovací páry zašuměných výstupů generátorů a učíme systém preferovat ten méně zašuměný. Toto vedlo ke 12% zvýšení korelace s lidským hodnocením proti předchozí nejlepší dosažené hodnotě.
Navíc ukazujeme první výsledky na datové sadě relativních hodnocení z E2E NLG Challenge (Dušek et al., 2019), kde syntetická data přinesla 4% zlepšení přesnosti oproti základnímu modelu.