Charles Explorer logo
🇨🇿

Další krok v online vyhledávání a vizualizacích slovtvorných sítí

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

V tomto článku představujeme novou vyhlepšenou verzi vyhledávače a vizualizátoru slovotvorných sítí DeriSearch. Slovotvorné sítě jsou datové sady zachycující derivační, kompoziční a jiné slovotvorné vztahy mezi slovy.

Jsou reprezentovatelné pomocí orientovaných grafů, ve kterých uzly představují slova a orientované hrany mezi nimi vyjadřují slovotvorné vztahy. Některé sítě navíc obsahují další lingvistické anotace, například segmentaci slov na morfémy nebo identifikaci slovotvorných procesů.

Sítě pro morfologicky bohaté jazyky s produktivním odvozováním a skládáním mají velké komponenty souvislosti, které se obtížně vizualizují. Například v DeriNetu 2.0, jedné ze sítí pro češtinu, je 1/8 slovníku obsažena v komponentách souvislosti velkých přes 500 slov.

V síti Word Formation Latin pro latinu je přes 10 000 slov (1/3 slovníku) v jediné komponentě. S nedávným vydáním souboru slovotvorných sítí pro více jazyků Universal Derivations potřeba nástroje pro vyhledávání a vizualizaci takto komplexních dat dál