Článek přináší výsledky společné úlohy metrik strojového překladu na workshopu WMT13. Účastníci úlohy nechali svými systémy vyhodnotit výstupy strojového překladu. Sebrali jsme hodnocení pomocí celkem 16 metrik od 8 týmů a doplnili hodnocení pomocí 5 standardních metrik (BLEU, WER, PER ad.).
Hodnocení pak byla porovnána z hlediska korelace s lidským hodnocením a to jak na úrovni jednotlivých vět, tak na úrovni celého testovacího textu.