Charles Explorer logo
🇨🇿

Zkoumání vícejazyčných kontextových vložek s ortogonálními strukturálními sondami

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Nejmodernější kontextové vložení získáváme z velkých jazykových modelů dostupných pouze pro několik jazyků. U ostatních se musíme naučit reprezentace pomocí mnohojazyčného modelu.

Probíhá diskuse o tom, zda lze vícejazyčné vložení sladit do prostoru sdíleného v mnoha jazycích. Ortogonální strukturální sonda (Limisiewicz a Mareček, 2021) nám umožňuje odpovědět na tuto otázku pro specifické jazykové rysy a naučit se projekci založenou pouze na jednojazyčných komentovaných datových souborech.

Hodnotíme syntaktické (UD) a lexikální (WordNet) strukturální informace zakódované v mBERT kontextové reprezentaci pro devět různých jazyků. Pozorujeme, že u jazyků úzce spjatých s angličtinou není nutná žádná transformace.

Vyhodnocená informace je zakódována ve sdíleném mezijazyčném vkládacím prostoru. Pro ostatní jazyky je výhodné použít ortogonální transformaci naučenou samostatně pro každý jazyk. Úspěšně aplikujeme naše zjištění na nulovou a málo natočenou analýzu přes jazyk.