I když se při strojovém vyhodnocování překladů ve velké míře používají metriky se středem věty, výkonnost na úrovni dokumentů je pro profesionální použití přinejmenším stejně důležitá. V tomto dokumentu upozorňujeme na podrobné hodnocení na úrovni dokumentů zaměřené na markables (výrazy nesoucí většinu významu dokumentu) a negativní dopad různých markable error fenomenů na překlad.
Pro anotační experiment dvou fází jsme vybrali české a anglické dokumenty přeložené systémy, které byly předány do WMT20 News Translation Task. Tyto dokumenty jsou z domén News, Audit a Lease.
Ukazujeme, že kvalita a také druh chyb se mezi doménami výrazně liš í. Tento systematický rozptyl je v protikladu k automatickým výsledkům hodnocení.
Zkoumáme, které specifické značení je problematické pro systémy MT, a zakončíme analýzou vlivu značených chybových typů na výkonnost MT měřenou lidmi a automatickými hodnotícími nástroji.