Charles Explorer logo
🇨🇿

Délka sekvence je doménou: overfitting Transformerových modelů na bázi délky

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Architektury založené na transformaci sekvence na sekvenci sice dosahují nejmodernějších výsledků na velkém množství úloh zpracování přirozeného jazyka, přesto však mohou při trénovaní trpět problémem přeučení. V praxi se tomu obvykle předchází buď použitím regularizačních metod (např. dropout, L2-regularizace), nebo poskytnutím obrovského množství trénovacích dat.

Navíc je známo, že Transformer a další architektury mají problém s generováním velmi dlouhých sekvencí. Například ve strojovém překladu dosahují neuronové systémy horších výsledků na velmi dlouhých sekvencích než předchozí překladové metody založené na frázovém překladu (Koehn and Knowles, 2017).

Předkládáme výsledky, které naznačují, že problém může být také v rozdílech mezi rozložením délek v trénovacích a validačních datech v kombinaci s výše uvedenou tendencí neuronových sítí přeučit se na trénovacích datech. Na jednoduché úloze editace řetězců a strojovém překladu demonstrujeme, že kvalita modelu Transformer výrazně klesá, když zpracov