Charles Explorer logo
🇨🇿

DeriNet v2.1

Publikace

Abstrakt

DeriNet je lexikální síť, která modeluje derivační vztahy ve slovníku češtiny. Uzly sítě odpovídají českým lexémům, zatímco hrany představují slovotvorné vztahy mezi odvozeným slovem a jeho základním slovem / slovy.

Současná verze, DeriNet 2.1, obsahuje 1 039 012 lexemes (extrahovány ze slovníku MorfFlex CZ 2.0) spojených 782 814 derivačními relacemi, 50 533 ortografickými variantami, 1 952 vztahů skládání, 295 univerbizačními vztahy a 144 konverzními vztahy. Ve srovnání s předchozí verzí obsahuje verze 2.1 anotace ortografických variant, plně automaticky generovanou anotaci hranic afixů (kromě kořenů anotovaných v 2.0), 202 affixoidů sloužících jako základ pro skládání, anotaci četností lexémů z korpusů, anotaci slovesných tříd a pilotní anotaci univerbace.

Sada tagů pro slovní druhy byla převedena na Universal POS z projektu Universal Dependencies.