Morfologické sítě pro perštinu a turečtinu

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

V této práci navrhujeme algoritmus pro indukci morfologických sítí pro perštinu a turečtinu. Algoritmus využívá slovníky s morfematickou segmentací.

Výsledná síť zachycuje jak derivační, tak flektivní relace. Algoritmus pro indukci sítě vychází buď z automaticky rozlišených afixů a kořenů, nebo z jednoduché klasifikační heuristiky.

Obě varianty jsou empiricky vyhodnoceny. Pro perštinu používáme vlastní velký ručně segmentovaný slovník, pro turečtinu menší slovník publikovaný dříve.

Ručně anotovaná data jsou algoritmem využita pro inicializaci sítě, která je následně rozšířena o formy pozorované v korpusech. Slovní formy, které nebyly přítomny v ručně anotovaných datech, segmentujeme řízenou i neřízenou verzí segmentačního nástroje Morfessor a nástrojem MorphSyn.

Experimentální výsledky ukazují, jak inicializace ručně segmentovanými daty ovlivňuje finální kvalitu vygenerovaných sítí.

Klíčová slova

morfologické sítě perštinu turečtinu