ÚFAL na MultiLexNorm 2021: Zlepšení vícejazyčné lexikální normalizace dotrénováním modelu ByT5

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Představujeme vítězný systém z Multilingual Lexical Normalization (MultiLexNorm) Shared Task na W-NUT 2021 (van der Goot et al., 2021a), který vyhodnocuje lexikálně-normalizační systémy na 12 datasetech sociálních médií v 11 jazycích. Naše řešení zakládáme na předtrénovaném jazykovém modelu ByT5 (Xue et al., 2021a), který dále trénujeme na syntetických datech a poté dotrénováváme na autentických normalizačních datech.

Náš systém dosahuje nejlepších výsledků s velkým náskokem v intrinsic hodnocení a také nejlepších výsledků v extrinsic vyhodnocení prostřednictvím syntaktické analýzy. Zdrojový kód je uvolněn na https://github.com/ufal/multilexnorm2021 a natrénované modely na https://huggingface.co/ufal.

Klíčová slova

úfal multilexnorm 2021 zlepšení vícejazyčné lexikální normalizace dotrénováním modelu byt5