Charles Explorer logo
🇨🇿

Jazyková výzva s překvapením: Vývoj systému neurálního strojového překladu mezi paštštinou a angličtinou za dva měsíce

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

V mediálním průmyslu se zaměření globálního zpravodajství může přes noc změnit. Existuje přesvědčivá potřeba být schopni vyvinout nové systémy strojového překladu v krátkém časovém období, aby bylo možné efektivněji pokrýt rychle se vyvíjející příběhy.

Jako součást stroje s nízkými zdroji překladatelského projektu GOURMET jsme náhodně vybrali jazyk, pro který musel být systém postaveno a vyhodnoceno za dva měsíce (únor a březen 2021). Vybraný jazyk byl Paštština, indoíránský jazyk používaný v Afghánistánu, Pákistánu a Indii.

V tomto období jsme dokončili celý proces vývoje systému neuronového strojového překladu: procházení dat, čištění, zarovnání, vytváření testovacích sad, vývoj a testování modelů a jejich poskytování uživatelským partnerům. V tomto článku popisujeme rychlý proces vytváření dat a experimenty s transferovým učením a přípravou na paštskou angličtinu.

Zjišťujeme, že začínáme od existujícího velký model předem proškolený na 50 jazycích vede k mnohem lepším výsledkům BLEU než předtrénová