Autoregresivní dekódování je jedinou součástí převádějících sekvence na sekvence, která bráňí masivní paralelizaci při inferenci. Neautoregresivní modely umožňují dekodéru generovat všechny výstupní symboly nezávisle a tedy paralelně.
V článku představujeme novou neautoregresivní architekturu založenou na konekcionistické temporální klasifikaci (CTC). Na rozdíl od jiných neautoregresivních metod, které je nutné trénovat v několika krocích, představovaný systém se trénuje monoliticky.
Experimentuje se strojovým překladem mezi angličinou a rumunštionou a angličtinou němčinou na standardních testovacích datech z WMT. Naše modely dosahují výrazného zrychlení oproti autoregresivním modelům, přičemž kvalita překladu je srovnatelná s jinými neautoregresivními modely.