Charles Explorer logo
🇨🇿

Použití paralelního korpusu pro adaptaci vzorce Flesch Reading Ease na češtinu

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Metriky srozumitelnosti textu hodnotí, kolik úsilí musí čtenář vynaložit na porozumění danému textu. Používají se např.

K výběru vhodných materiálů pro četbu pro různé úrovně znalostí studentů nebo k zajištění efektivního přenosu důležitých informací (např. V případě nouze).

Flesch Reading Ease je natolik globálně používaný vzorec, že je dokonce integrován do textového procesoru MS. Jeho konstanty jsou však závislé na jazyce.

Původní vzorec byl vytvořen pro angličtinu. Doposud byl přizpůsoben několika evropským jazykům, bengálštině a hindštině.

Tento článek popisuje českou adaptaci, přičemž jazykově závislé konstanty jsou optimalizovány algoritmem strojového učení pracujícím na paralelních korpusech češtiny s angličtinou, ruštinou, italštinou a francouzštinou.