Korektor – systém pro kontextovou kontrolu pravopisu a doplňování diakritiky

Publikace na Matematicko-fyzikální fakulta, Filozofická fakulta |

2012

Abstrakt

Představujeme Korektor – flexibilní statistický nástroj pro opravu českých textů, jehož schopnosti přesahují tradiční nástroje pro kontrolu pravopisu. Korektor využívá kombinace jazykových modelů a chybového modelu jak k tomu, aby setřídil pořadí nabízených náhrad pro neznámé slovo podle pravděpodobnosti výskytu na daném místě v textu, tak také, aby nalezl i překlepy, které se nahodile shodují s existujícím českým slovním tvarem.

Prostou náhradou chybového modelu náš pracuje Korektor také jako systém pro doplnění diakritiky („oháčkování textu“) s nejvyšší publikovanou úspěšností. Systém neobsahuje žádné významné jazykově specifické komponenty s výjimkou natrénovaných statistických modelů.

Je tedy možné jej snadno natrénovat i pro jiné jazyky. Ukážeme, jakých zlepšení náš systém dosahuje v porovnání se stávajícími českými korektory pravopisu i systémy pro doplnění diakritiky.

Ukážeme také, že kombinace těchto schopností pomáhá při anotaci chyb v korpusu češtiny jako druhého jazyka.

Klíčová slova

korektor systém kontextovou kontrolu pravopisu doplňování diakritiky