Náš článek se zaměřuje na vývoj vícejazyčného zdroje dat pro morfologickou segmentaci. Představujeme přehled 17 existujících datových zdrojů relevantních pro segmentaci ve 32 jazycích a analyzujeme rozmanitost způsobů, jakými jsou v nich jednotlivé jazykové jevy zachyceny.
Nechali jsme se inspirovat úspěchem Universal Dependencies a navrhujeme harmonizované schéma pro reprezentaci segmentaci a převádíme data z těchto zdrojů do jednotného schématu. Harmonizované verze zdrojů dostupné pod bezplatnými licencemi jsou publikovány jako kolekce s názvem UniSegments 1.0.