Charles Explorer logo
🇨🇿

Příprava lexikálních dat pro derivační morfologii ruštiny

Publikace na Matematicko-fyzikální fakulta |
2022

Abstrakt

Slova jsou v jazycích provázána slovotvornými vztahy, např. sloveso examplify a substantivum examples obě souvisí s example, přičemž uvedené sloveso z něj vzniklo odvozením a substantivní tvar inflexí. Mezi jazykovými zdroji pro ruštinu je inflexe pokrytá dostatečně, nicméně derivace je pokryta datovými zdroji daleko omezeněji.

Tento článek je věnován vylepšení metody konstrukce derivačních sítí a aplikaci tohoto postupu na ruštinu, vedoucí k vytvoření dosud největšího datového zdroje ruských derivačních relací. Výsledná databáze DeriNet.RU obsahuje víc než 300 tisíc lemmat spojených s více než 164 tisíci slovotvornými relacemi.

Pro vytvoření takových dat jsme použili metody strojového učení. Databáze je zveřejněna pod otevřenou licencí.