Představujeme vítězný systém z Multilingual Lexical Normalization (MultiLexNorm) Shared Task na W-NUT 2021 (van der Goot et al., 2021a), který vyhodnocuje lexikálně-normalizační systémy na 12 datasetech sociálních médií v 11 jazycích. Naše řešení zakládáme na předtrénovaném jazykovém modelu ByT5 (Xue et al., 2021a), který dále trénujeme na syntetických datech a poté dotrénováváme na autentických normalizačních datech.
Náš systém dosahuje nejlepších výsledků s velkým náskokem v intrinsic hodnocení a také nejlepších výsledků v extrinsic vyhodnocení prostřednictvím syntaktické analýzy. Zdrojový kód je uvolněn na https://github.com/ufal/multilexnorm2021 a natrénované modely na https://huggingface.co/ufal.