Splitting a identifikace českých kompozit: pilotní studie

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Představujeme pilotní experimenty na dělení a identifikaci českých složených slov. Vytvořili jsme algoritmus měřící jazykovou podobnost dvou slov založený na nalezení nejkratšího cesta skrze matici vzájemných odhadovaných korespondencí mezi dvěma fonologicky přepsanými řetězci.

Dále jsme vytvořili nástroj pro splitting neboli dělení složených slov (Czech Compound Splitter) pomocí frameworku Marian Neural Machine Translator, který byl vytrénován na datové sadě obsahující 1 164 ručně anotovaných sloučenin a zhruba 280 000 synteticky vytvořených kompozit. Ve splittingu kompozit dosáhlo první řešení přesnosti 28 % a druhé řešení 54 % na validačním datové sadě.

V úloze identifikace kompozit dosáhl Czech Compound Splitter přesnosti 91%.

Klíčová slova

splitting identifikace českých kompozit pilotní studie