Charles Explorer logo
🇨🇿

DeriNet 2.0: Jednotný zdroj slovotvorných dat

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

DeriNet je rozsáhlý lingvistický zdroj obsahující více než 1 milion českých lexémů spojených téměř 810 tisíci derivačních vztahů. Jeho předchozí verze, DeriNet 1.7, kromě derivací neobsahovala další anotace - byly v ní uvedeny lemmata a slovnědruhové kategorie každého lexému, a od verze 1.5 binární příznak kompozitnosti.

Tento článek představuje rozšířenou verzi zdroje, nazvanou DeriNet 2.0, která přináší řadu nových anotací: všechny lexémy mají vyznačené základní morfologické kategorie (vid, rod a životnost), 250 tisíc lexémů má identifikované kořenové morfémy, 150 tisíc derivačních vztahů je označeno svou sémantickou kategorií (zdrobňování, přivlastňování, přechylování, opakovanost a změna vidu), některá kompozita jsou v rámci pilotního projektu přiřazena ke svým základovým slovům a přibylo několik tzv. fiktivních lexémů spojujících příbuzné derivační rodiny bez společného předka. Tyto nové anotace mohly být přidány díky novému souborovému formátu, který je obecný a rozšiřitelný a tedy potenciálně v