Derivační morfologické vztahy ve word embeddings

Publikace na Matematicko-fyzikální fakulta |

2019

Abstrakt

Derivace je typ slovotvorného procesu, který odvozuje nová slova z existujících přidáváním, měněním či odebíráním afixů. V tomto článku zkoumáme potenciál slovních embeddingů pro identifikaci vlastností derivací v češtině.

Extrahujeme derivační vztahy mezi páry slov z DeriNetu, sítě českých derivací, která sdružuje zhruba milion českých lemmat do derivačních stromů. Pro každý pár vypočteme rozdíl embeddingů obou forem a neřízeně clusterujeme výsledné vektory.

Naše výsledky ukazují, že tyto clustery zhruba odpovídají manuálně označeným sémantickým kategoriím derivačních vztahů (čili vztah "péct-pekař" patří do třídy "aktor" a správné clusterování ho přiřadí do stejného clusteru jako "řídit-ředitel").

Klíčová slova

derivační morfologické vztahy word embeddings