Charles Explorer logo
🇨🇿

Proč se nepoužívá strojový překlad po znacích?

Publikace na Matematicko-fyzikální fakulta |
2022

Abstrakt

V článku prezentuje přehled literatury a empirický průzkum, který kriticky hodnotí předchozí práci v oblasti strojového překladu na úrovni znaků. Navzdory tvrzením v literatuře, že systémy na úrovni znaků jsou srovnatelné se systémy, které pracují na úrovni podslov, prakticky nikdy se nepoužívají v soutěžních systémech WMT.

Empiricky ukazujeme, že i s nedávnými inovacemi v modelování zpracování přirozeného jazyka na úrovni znaků se systémy strojového překladu na úrovni znaků stále obtížně vyrovnávají svým protějškům na bázi podslov. Strojový překlad na úrovni znaků nevykazuje ani lepší doménovou robustnost, ani lepší morfologické zobecnění, přestože to bývá často hlavní motivace pro jejich vývoj.

Systémy zpracovávající vstup po znacích naopak vykazují velkou robustnost vůči šumu a že kvalita překladu neklesá ani s klesající mírou ořezávání během dekódování.