Architektury založené na transformaci sekvence na sekvenci sice dosahují nejmodernějších výsledků na velkém množství úloh zpracování přirozeného jazyka, přesto však mohou při trénovaní trpět problémem přeučení. V praxi se tomu obvykle předchází buď použitím regularizačních metod (např. dropout, L2-regularizace), nebo poskytnutím obrovského množství trénovacích dat.
Navíc je známo, že Transformer a další architektury mají problém s generováním velmi dlouhých sekvencí. Například ve strojovém překladu dosahují neuronové systémy hor ších výsledků na velmi dlouhých sekvencích než předchozí překladové metody založené na frázovém překladu (Koehn and Knowles, 2017).
Předkládáme výsledky, které naznačují, že problém může být také v rozdílech mezi rozložením délek v trénovacích a validačních datech v kombinaci s výše uvedenou tendencí neuronových sítí přeučit se na trénovacích datech. Na jednoduché úloze editace řetězců a strojovém překladu demonstrujeme, že kvalita modelu Transformer výrazně klesá, když zpracov