Charakterové transformace pro neautoregresivní opravu gramatiky značkováním

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Představujeme neautoregresivní přístup k opravě gramatiky založený na znacích s automaticky generovanými transformacemi znaků. Nedávno byla jako alternativa k současným systémům pro opravu gramatiky typu enkodér-dekodér navržena klasifikace korekčních oprav jednotlivých slov.

Ukazujeme, že náhrada celých slov může být neoptimální a může vést k explozi počtu pravidel pro opravy typu překlepů, diakritizační opravy a opravy v morfologicky bohatých jazycích, a proto navrhujeme metodu pro generování transformací znaků z korpusu pro opravu gramatiky. Dále jsme natrénovali znakové transformační modely pro češtinu, němčinu a ruštinu a dosáhli jsme solidních výsledků a dramatického zrychlení ve srovnání s autoregresivními systémy.

Zdrojový kód je zveřejněn zde: https://github.com/ufal/wnut2021_character_transformations_gec.

Klíčová slova

charakterové transformace neautoregresivní opravu gramatiky značkováním