RobeCzech: Česká RoBERTa, monolingvální kontextualizovaný jazykový model

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Představujeme RobeCzech, jednojazyčnou RoBERTu, (jazykový model) trénovaný pouze na českých datech. RoBERTa je robustně optimalizovaný přístup pro předtrénování založený na Transformeru.

V příspěvku ukazujeme, že RobeCzech výrazně překonává podobně velké vícejazyčné i české kontextualizované modely a zlepšuje současné výsledky v pěti vyhodnocovaných úlohách automatického jazykového zpracování, přičemž dosahuje nejlepších známých výsledků ve čtyřech z nich. Model RobeCzech je veřejně dostupný zde: https://hdl.handle.net/11234/1-3691 a zde: https://huggingface.co/ufal/robeczech-base.

Klíčová slova

robeczech česká roberta monolingvální kontextualizovaný jazykový model