Tento dokument představuje výsledky sdíleného úkolu WMT19 Metrics. Účastníci byli požádáni, aby pomocí automatických metrik ohodnotili výstupy překladatelských systémů soutěžících v WMT19 News Translation Task. 13 výzkumných skupin předložilo 24 metrik, z nichž 10 jsou "metriky" bez odkazů a představují podání ke společnému úkolu s WMT19 Quality Estimation Task, "QE as a Metric". Navíc jsme vypočítali 11 základních metriky, s 8 běžně používanými výchozími hodnotami (BLEU, SentBLEU, NIST, WER, PER, TER, CDER a chrF) a 3 reimplementy (chrF+, sacreBLEU-BLEU a sacreBLEU-chrF).
Metriky byly hodnoceny na systémové úrovni, jak dobře daná metrika koreluje s oficiálním manuálním řazením WMT19 a na úrovni segmentu, jak dobře metrika koreluje s lidskými úsudky o kvalitě segmentu. Letos používáme přímé hodnocení (DA) jako jedinou formu manuálního hodnocení.