Charles Explorer logo
🇨🇿

Automatická oprava gramatiky při malém množství trénovacích dat

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Automatická oprava gramatiky v angličtině je dlouho studovaný problém s mnoha existujícími systémy a datovými zdroji. Výzkum oprav chyb v jiných jazycích je však pouze omezený.

V této práci představujeme nový dataset AKCES-GEC pro gramatickou korekci chyb pro češtinu. Dále provádíme experimenty na češtině, němčině a ruštině a ukazujeme, že při využití syntetického paralelního korpusu může model neuronového strojového překladu Transformer dosáhnout na těchto datasetech nejlepších známých výsledků.

AKCES-GEC vychází pod licencí CC BY-NC-SA 4.0 na adrese https://hdl.handle.net/11234/1-3057 a zdrojový kód modelu GEC je k dispozici na adrese https://github.com/ufal/low-resource-gec-wnut2019.