Robustní vícejazyčné statistické modely pro generování morfologie

Publikace na Matematicko-fyzikální fakulta |

2013

Abstrakt

Prezentujeme novou metodu statistického generování morfologie, tj. predikce konkrétní slovní formy z lemmatu, slovního druhu a morfologických kategorií, která cílí na robustnost vůči neznámým vstupům. Náš systém používá trénovatelný klasifikátor pro predici „editačních scénářů“, které posléze použije k transformaci lemmat na cílové slovní formy.

Pro dosažení robustnosti jsou jako atributy pro klasifikaci použity také sufixy lemmat. Náš systém byl vyhodnocen na šesti jazycích s různým stupněm morfologické bohatosti.

Výsledky ukazují, že systém je schopen se naučit většinu morfologických jevů a generalizuje na neznámé vstupy, takže dosahuje signifikatně lepších výsledků než baseline založený na slovníku.

Klíčová slova

robustní vícejazyčné statistické modely generování morfologie