Vylepšení neuronového taggeru pro identifikaci víceslovných výrazů

Publikace na Matematicko-fyzikální fakulta |

2018

Abstrakt

V článku prezentujeme sadu vylepšení taggeru pro automatickou detekci slovesných víceslovných výrazů, MUMULS. Náš tagger se zúčastnil PARSEME shared tasku a jako jediný byl založen na neuronových sítích.

Ukazujeme, že embeddingy slov na základě jejich znaků vedou k zlepšením, především díky redukci množství out-of-vocabulary slov. Dále nahrazením softmaxové vrstvy v dekodéru klasifikátorem založeným na conditional random fields dosahujeme dalšího zlepšení.

Na závěr porovnáváme různé druhy reprezentací příznaků zohledňující okolní kontext slova za pomocí různých architektur enkodérů. Experimenty s češtinou ukazují, že kombinace embeddingů založených na konvoluci jednotlivých znaků, self-attentive architektura enkodéru a conditional random filed klasifikátor dosahují nejlepších empirických výsledků.

Klíčová slova

vylepšení neuronového taggeru identifikaci víceslovných výrazů