Charles Explorer logo
🇨🇿

Universal Segmentations 1.0 (UniSegments 1.0)

Publikace

Abstrakt

Universal Segmentations (UniSegments) je kolekce lexikálních zdrojů zachycujících morfologické segmentace mnoha jazyků harmonizované do lingvisticky konzistentního anotačního schématu. Anotační schéma je uloženo jednoduchém sloupcovém formátu, přičemž jednotlivé sloupce jsou odděleny tabulátory.

K jednotlivým slovům se ukládá jejich morfologická segmentace, včetně různých informací o slovech a segmentovaných jednotkách, např. slovní druhy, typy morfů/morfémů atd. Současná veřejná verze kolekce obsahuje 38 harmonizovaných datových souborů pokrývajících 30 různých jazyků.