Pozorujeme, že různé druhy chyb, kterých se dopouštějí systémy pro generování přirozeného jazyka, jsou velmi málo reportovány v literatuře. To je problém, protože chyby jsou důležitým ukazatelem toho, kde by se systémy měly ještě zlepšit.
Pokud autoři uvádějí pouze celkové metriky výkonnosti, zůstává výzkumná komunita v nevědomosti o konkrétních nedostatcích v nejmodernějších přístupech. Vedle kvantifikace rozsahu nedostatečného vykazování chyb tento článek poskytuje doporučení pro identifikaci, analýzu a vykazování chyb.