Charles Explorer logo
🇨🇿

Řízená morfologická segmentace s využitím bohatě anotovaného slovníku

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Morfologická segmentace slov je proces rozdělování slova na menší jednotky nazývané morfémy, což je úloha, která je obtížná zejména v případě morfologicky bohatých nebo polysyntetických jazyků. V této práci navrhujeme pro řešení této úlohy několik rekurzivních neuronových sítí a dalších přístupů založených na strojovém učení.

Jako trénovací data používáme ručně segmentované slovníky. K vyhodnocení vlivu velikosti slovníku na kvalitu segmentace používáme rozsáhlý, ručně anotovaný segmentační slovník perštiny.

Dále používáme menší segmentační slovníky pro češtinu a finštinu. Na těchto jazycích zkoumáme rovněž vliv nastavení hyperparametrů a zvolených rekurentních architektur.