K Universal Segmentations: UniSegments 1.0

Publikace na Matematicko-fyzikální fakulta |

2022

Abstrakt

Náš článek se zaměřuje na vývoj vícejazyčného zdroje dat pro morfologickou segmentaci. Představujeme přehled 17 existujících datových zdrojů relevantních pro segmentaci ve 32 jazycích a analyzujeme rozmanitost způsobů, jakými jsou v nich jednotlivé jazykové jevy zachyceny.

Nechali jsme se inspirovat úspěchem Universal Dependencies a navrhujeme harmonizované schéma pro reprezentaci segmentaci a převádíme data z těchto zdrojů do jednotného schématu. Harmonizované verze zdrojů dostupné pod bezplatnými licencemi jsou publikovány jako kolekce s názvem UniSegments 1.0.

Klíčová slova

universal segmentations unisegments