Charles Explorer logo
🇨🇿

Optimální referenční překlady z angličtiny do češtiny WMT2020

Publikace

Abstrakt

„Optimální referenční překlady“ definujeme jako nejlepší možné překlady, jakých může dosáhnout tým lidských překladatelů. Optimální referenční překlady lze použít při hodnocení vynikajících strojových překladů.

Ze 130 anglických dokumentů zařazených do datasetu WMT2020 (http://www.statmt.org/wmt20/) jsme vybrali 50 dokumentů (online zpravodajské články, celkem 579 odstavců) s cílem zachovat rozmanitost (styl, žánr atd.) výběru. Kromě oficiálního referenčního českého překladu poskytnutého organizátory WMT (P1) jsme prostřednictvím profesionální překladatelské agentury najali další dva překladatele (P2 a P3, rodilí mluvčí češtiny), čímž vznikly tři nezávislé překlady. Hlavním přínosem tohoto souboru dat jsou dva další překlady (tj. optimální referenční překlady N1 a N2), které společně provedli dva překladatelé a zároveň teoretici překladu s mimořádnou péčí o různé aspekty kvality překladu, přičemž zohlednili překlady P1-P3. K některým segmentům zveřejňujeme i interní komentáře (v češtině).

Překlad N1 by se měl co nejvíce blížit anglickému originálu (co do významu i jazykové struktury). Ženská příjmení přechýlena (např. „Mai“ je přeloženo jako „Maiová“). Překlad N2 je volnější, snaží se být kreativnější, idiomatičtější, pro čtenáře čtivější a řídí se typickým stylem používaným v českých médiích, přičemž zachovává pravidla funkční ekvivalence. Překlad N2 chybí u segmentů, kde nebylo považováno za nutné uvést dva alternativní překlady. U aplikací/analýz, které vyžadují překlad všech segmentů, by se to mělo interpretovat tak, že N2 je pro daný segment stejný jako N1.

Soubor dat poskytujeme ve dvou formátech: OpenDocument spreadsheet (odt) a prostý text (jeden soubor pro každý překlad a anglický originál). Některá slova byla při tvorbě optimálních referenčních překladů zvýrazněna různými barvami; toto zvýraznění a komentáře jsou přítomny pouze ve formátu odt (některé komentáře odkazují na čísla řádků v souboru odt). Dokumenty jsou odděleny prázdnými řádky a každý dokument začíná zvláštním řádkem obsahujícím název dokumentu (např. "# upi.205735"), což umožňuje zarovnání s originálem datasetu WMT2020. Pro segmenty, kde chybí překlady N2 ve formátu odt, se místo nich použijí příslušné segmenty N1 ve formátu prostého textu.