Charles Explorer logo
🇨🇿

Oprava diakritiky pomocí modelu BERT s analýzou na českém jazyce

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

V příspěvku představujeme novou architekturu pro obnovu diakritiky založenou na kontextualizovaných vektorových reprezentacích, konkrétně BERT, a vyhodnocujeme ji ve dvanácti jazycích s diakritikou. Dále jsme provedli detailní chybovou analýzu v češtině, jazyce s bohatou morfologií a vysokou úrovní diakritizace.

Zejména jsme ručně anotovali všechny chybné predikce a ukázali jsme, že zhruba 44% z chybně určené diakritizace nepředstavují skutečné chyby, nýbrž z 19% paralelní přijatelné varianty nebo dokonce systémové opravy diakritizace indukované různými chybami v datech (25%). Nakonec jsme také detailně kategorizovali skutečné chyby systému.

Zdrojový kód jsme vydali zde: https://github.com/ufal/bert-diacritics-restoration.