Charles Explorer logo
🇨🇿

Zkracování strojového překladu pomocí datasetu parafrází

Publikace na Matematicko-fyzikální fakulta |
2023

Abstrakt

S tím, jak se aplikace strojového překladu stále rozšiřují do oblasti událostí v reálném čase, je potřeba rychlejšího a výstižnějšího překladu stále důležitější. Jednou z takových aplikací je simultánní překlad řeči, vysílání titulků v cílovém jazyce dané řeči ve zdrojovém jazyce.

V této práci se zaměřujeme na usnadnění čtenářského porozumění titulkům tím, že překlad zkrátíme a zároveň zachováme jeho informativnost. K tomu využíváme S, M a L verzi databáze parafrází (PPDB) a využíváme jejich vlastnosti, že některá pravidla parafrázování se liší délkou levé a pravé strany.

Výběrem pravidel, která zkrátí výstup, doladíme model MT tak, aby přirozeně generoval kratší překlady. Výsledky ukazují, že stručnost modelu se zlepšuje až o 0,61 %, což ponechává prostor pro vylepšení pomocí větších verzí PPDB v budoucí práci.