Charles Explorer logo
🇨🇿

LanideNN: mnohojazyčný rozpoznávač jazyků

Publikace na Matematicko-fyzikální fakulta |
2017

Abstrakt

V identifikaci jazyka, společný prvním krokem při zpracování přirozeného jazyka, chceme automaticky určit jazyk nějakého vstupního textu. Jednojazyčná identifikace jazyka předpokládá, že daný dokument je napsán v jednom jazyce.

Ve vícejazyčné identifikaci jazyka, že dokument je obvykle ve dvou nebo ve třech jazycích a my jen chceme jejich jména. Naš cíl je ještě o krok dále a chceme navrhnout metodu pro identifikaci jazyků, kde se mohou jazyky libovolně měnit v textu a cílem je identifikovat rozpětí každého z jazyků.

Naše metoda je založena na obousměrné rekurentních neuronových sítí, která funguje dobře v jednojazyčné a vícejazyčných identifikaci jazyka. Náš nástroj pokrývá 131 jazyků.

Tato metoda zachovává přesnost i pro krátké dokumenty a napříč doménami, takže je ideální pro použití bez přípravy tréninkových dat.