Charles Explorer logo
🇨🇿

Universal Derivations 1.0, Rostoucí kolekce harmonizovaných zdrojů slovotvorby

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Článek se zabývá harmonizací existujících datových zdrojů zachycujících slovotvorbu různých jazyků, konkrétně převodem originálně zachycených slovotvorných příznaků do stejného souborového formátu a zčásti též do téhož anotačního schématu. Shrnuty jsou rozdíly i podobnosti mezi harmonizovanými zdroji.

Popsány jsou jednotlivé kroky prezentované harmonizační procedury, jež zahrnuje manuální anotace i aplikaci technik z oblasti strojového učení. Výsledká kolekce 'Universal Derivations 1.0' obsahuje 27 harmonizovaných datových zdrojů, které dohromady pokrývají 20 různých jazyků.

Kolekce je volně dostupná v repozitáři LINDAT/CLARIAH CZ a data jednotlivých zdrojů lze též dotazovat pomocí nástroje DeriSearch.