Oprava gramatických chyb v češtině pomocí velkého a rozmanitého korpusu

Publikace na Matematicko-fyzikální fakulta, Filozofická fakulta |

2022

Abstrakt

Představujeme velký a různorodý český korpus pro opravu gramatických chyb s cílem přispět ke stále nedostatkovým datovým zdrojům v této doméně pro jiné jazyky než angličtinu. Korpus pro gramatickou opravu chyb pro češtinu (GECCC) nabízí čtyři domény, které pokrývají distribuci chyb od esejů s vysokou hustotou chyb napsaných nerodilými mluvčími až po texty webových stránek, kde jsou chyby mnohem méně časté.

Porovnáváme několik českých GEC systémů, včetně několika na bázi architektury Transformer, a nastavujeme tak silnou baseline pro budoucí výzkum. V neposlední řadě také provádíme meta-evaluaci běžných GEC metrik pomocí ručního hodnocení na našich datech.

Nový český GEC korpus zveřejňujeme pod licencí CC BY-SA 4.0 na adrese http://hdl.handle.net/11234/1-4639.

Klíčová slova

oprava gramatických chyb češtině pomocí velkého rozmanitého korpusu