Charles Explorer logo
🇨🇿

Výsledky z WMT21 Metrics Shared Task: Vyhodnocování metrik s expertními lidskými hodnoceními na doméně TED a zpravodajství

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Tento článek představuje výsledky WMT21 Metrics Shared Task. Účastníci byli požádáni o hodnocení výstupů překladatelských systémů soutěžících v překladatelské úloze WMT21 News pomocí automatických metrik pro dvě různé oblasti: zpravodajství a TED talks. Všechny metriky byly hodnoceny podle toho, jak dobře korelují na úrovni systému a segmentu s lidským hodnocením.

Na rozdíl od předchozích ročníků jsme letos získali vlastní lidská hodnocení na základě expertního lidského hodnocení prostřednictvím vícerozměrných metrik kvality (MQM). Toto nastavení mělo několik výhod: (i) ukázalo se, že expertní hodnocení je spolehlivější, (ii) byli jsme schopni vyhodnotit všechny metriky na dvou různých doménách s použitím překladů stejných systémů MT, (iii) během vývoje systému jsme přidali 5 dalších překladů pocházejících ze stejného systému.

Kromě toho jsme navrhli tři sady výzev, které hodnotí robustnost všech automatických metrik. Předkládáme rozsáhlou analýzu toho, jak dobře metriky fungují na třech jazykových dv