Charles Explorer logo
🇨🇿

Zlepšení korektor: Případová studie s nativní a non-rodilého Čecha

Publikace na Matematicko-fyzikální fakulta, Filozofická fakulta |
2015

Abstrakt

Představujeme aktuální vývoj korektor, je statistický systém kontroly pravopisu. Kromě lexikonu, Korektor používá jazyk modely najít chyby real-slovo, detekovatelná pouze v kontextu.

Modely a chyba probanického, vyvozené z chyb korpusů, jsou také používány pro navrhovaly GEST nejpravděpodobnější opravy. Korektor byl původně vyškolení na malé chyby korpusu a použité jazykové modely extrahuje z in-house corpus WebColl.

Ukážeme dvě nedávná zlepšení:. Postavili jsme nové jazykové modely z volne dostupný schopné (šoural) verze České národní korespondence hnis a ukazují, že tyto provádět trvale lepší na texty vyráběných jak rodilými mluvčími a non-nativní studenti češtiny..

Trénovali jsme nové modely chyb na ručně s poznámkami žák korpus a ukázat, že lepší výkon než Standardní model chyba (detekce chyb) nejenom pro texty studenty ", ale také pro naše standardní hodšpatne rozpoznaných zpráv data rodilého Čecha. Pro korekci chyb se standardní model chyba překonaly non-nativní modulárně els ve 2 ze 3 testova