O jazykové neutralitě předtrénovaných vícejazyčných reprezentací

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Mnohojazyčné kontextové embedinky, jako vícejazyčný BERT (mBERT) a XLM-RoBERTa, se osvědčily pro mnoho vícejazyčných úloh. Předchozí práce zkoumala mnohojazyčnost reprezentací nepřímo s využitím nulového transferového učení na morfologických a syntaktických úkolech.

Místo toho se zaměřujeme na jazykovou neutralitu mBERTu s ohledem na lexikální sémantiku. Naše výsledky ukazují, že kontextové embedinky jsou jazykově neutrálnější a obecně informativnější než zarovnané statické slovní embedinky, které jsou explicitně trénovány na jazykovou neutralitu.

Kontextové embedinky jsou stále standardně pouze mírně jazykově neutrální, nicméně ukazujeme dvě jednoduché metody, jak dosáhnout silnější jazykové neutrality: zaprvé neřízeným vystředěním reprezentace pro jazyky a zadruhé explicitní projekcí na malých paralelních datech. Kromě toho ukazujeme, jak překonat nejlepší dosažené přesnosti při identifikaci jazyka a zarovnávání slov v paralelních větách.

Klíčová slova

jazykové neutralitě předtrénovaných vícejazyčných reprezentací