WMT20 zkoumání chybovosti Markable na úrovni dokumentů

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

I když se při strojovém vyhodnocování překladů ve velké míře používají metriky se středem věty, výkonnost na úrovni dokumentů je pro profesionální použití přinejmenším stejně důležitá. V tomto dokumentu upozorňujeme na podrobné hodnocení na úrovni dokumentů zaměřené na markables (výrazy nesoucí většinu významu dokumentu) a negativní dopad různých markable error fenomenů na překlad.

Pro anotační experiment dvou fází jsme vybrali české a anglické dokumenty přeložené systémy, které byly předány do WMT20 News Translation Task. Tyto dokumenty jsou z domén News, Audit a Lease.

Ukazujeme, že kvalita a také druh chyb se mezi doménami výrazně liší. Tento systematický rozptyl je v protikladu k automatickým výsledkům hodnocení.

Zkoumáme, které specifické značení je problematické pro systémy MT, a zakončíme analýzou vlivu značených chybových typů na výkonnost MT měřenou lidmi a automatickými hodnotícími nástroji.

Klíčová slova

wmt20 zkoumání chybovosti markable úrovni dokumentů