Architektury založené na transformaci sekvence na sekvenci sice dosahují nejmodernějších výsledků na velkém množství úloh zpracování přirozeného jazyka, přesto však mohou při trénovaní trpět problémem přeučení. V praxi se tomu obvykle předchází buď použitím regularizačních metod (např. dropout, L2-regularizace), nebo poskytnutím obrovského množství trénovacích dat.
Navíc je známo, že Transformer a další architektury mají problém s generováním velmi dlouhých sekvencí. Například ve strojovém překladu dosahují neuronové systémy horších výsledků na velmi dlouhých sekvencích než předchoz í překladové metody založené na frázovém překladu (Koehn and Knowles, 2017).
Předkládáme výsledky, které naznačují, že problém může být také v rozdílech mezi rozložením délek v trénovacích a validačních datech v kombinaci s výše uvedenou tendencí neuronových sítí přeučit se na trénovacích datech. Na jednoduché úloze editace řetězců a strojovém překladu demonstrujeme, že kvalita modelu Transformer výrazně klesá, když zpracov