Představujeme RobeCzech, jednojazyčnou RoBERTu, (jazykový model) trénovaný pouze na českých datech. RoBERTa je robustně optimalizovaný přístup pro předtrénování založený na Transformeru.
V příspěvku ukazujeme, že RobeCzech výrazně překonává podobně velké vícejazyčné i české kontextualizované modely a zlepšuje současné výsledky v pěti vyhodnocovaných úlohách automatického jazykového zpracování, přičemž dosahuje nejlepších známých výsledků ve čtyřech z nich. Model RobeCzech je veřejně dostupný zde: https://hdl.handle.net/11234/1-3691 a zde: https://huggingface.co/ufal/robeczech-base.