Představujeme velký a různorodý český korpus pro opravu gramatických chyb s cílem přispět ke stále nedostatkovým datovým zdrojům v této doméně pro jiné jazyky než angličtinu. Korpus pro gramatickou opravu chyb pro češtinu (GECCC) nabízí čtyři domény, které pokrývají distribuci chyb od esejů s vysokou hustotou chyb napsaných nerodilými mluvčími až po texty webových stránek, kde jsou chyby mnohem méně časté.
Porovnáváme několik českých GEC systémů, včetně několika na bázi architektury Transformer, a nastavujeme tak silnou baseline pro budoucí výzkum. V neposlední řadě také provádíme meta-evaluaci běžných GEC metrik pomocí ručního hodnocení na našich datech.
Nový český GEC korpus zveřejňujeme pod licencí CC BY-SA 4.0 na adrese http://hdl.handle.net/11234/1-4639.