Charles Explorer logo
🇨🇿

Vyvážený datový přístup pro hodnocení translingvistického přenosu: Mapování lingvistické krevní banky

Publikace na Matematicko-fyzikální fakulta |
2022

Abstrakt

Ukazujeme, že výběr jazyků pro předškolení ovlivňuje následný přenos mezi jazyky pro modely založené na BERT. Zkoumáme nulový výkon v vyvážených datových podmínkách, abychom zmírnili matoucí velikost dat, klasifikujeme jazyky pro předškolení, které zlepšují následný výkon, jako dárce a jazyky, které se zlepšují v nulovém výkonu, jako příjemce.

Vyvíjíme metodu kvadratické časové složitosti v počtu jazyků, abychom tyto vztahy odhadli, místo exponenciálního vyčerpávajícího výpočtu všech možných kombinací. Zjišťujeme, že naše metoda je účinná na různorodou sadu jazyků zahrnující různé jazykové vlastnosti a dva navazující úkoly.

Naše zjištění mohou informovat vývojáře rozsáhlých vícejazyčných jazykových modelů při výběru lepších konfigurací pro předškolení.