Charles Explorer logo
🇨🇿

Omezené dekódování pro zachování odborných termínů v anglicko-hindském MT

Publikace na Matematicko-fyzikální fakulta |
2022

Abstrakt

Technické termíny mohou vyžadovat zvláštní zacházení, pokud je cílová skupina dvojjazyčná, v závislosti na kulturních a vzdělávacích normách dané společnosti. Zejména některé překladové situace mohou vyžadovat „zachování termínů“, tj. ponechání technických termínů zdrojového jazyka v cílovém jazyce výstupu, aby vznikla plynulá a srozumitelná věta.

Ukazujeme, že standardní model strojového překladu založený na Transformeru lze snadno přizpůsobit k dosažení tohoto cíle, aniž by přitom trpěla kvalita jeho výstupu obecně. Představujeme anglicko-hindský model, který je natrénovat k uposlechnutí signálu „zachování“, tj. za běhu zajistí, že vybrané termíny nebudou přeloženy.

Navrženou metodu vyhodnocujeme automatickými metrikami (BLEU pro překlad obecně, F1 pro zachování termínů), i ručně (celková kvalita výstupních vět).