Derivace je typ slovotvorného procesu, který odvozuje nová slova z existujících přidáváním, měněním či odebíráním afixů. V tomto článku zkoumáme potenciál slovních embeddingů pro identifikaci vlastností derivací v češtině.
Extrahujeme derivační vztahy mezi páry slov z DeriNetu, sítě českých derivací, která sdružuje zhruba milion českých lemmat do derivačních stromů. Pro každý pár vypočteme rozdíl embeddingů obou forem a neřízeně clusterujeme výsledné vektory.
Naše výsledky ukazují, že tyto clustery zhruba odpovídají manuálně označeným sémantickým kategoriím derivačních vztahů (čili vztah "péct-pekař" patří do třídy "aktor" a správné clusterování ho přiřadí do stejného clusteru jako "řídit-ředitel").