Package of word embeddings of Czech from a large corpus

Publikace

Abstrakt

Tento balíček obsahuje osm modelů českých slovních vektorů vytvořených nástrojem word2vec (Mikolov a kol. 2013) na aktuálně nejrozsáhlejším korpusu češtiny SYN v9 (Křen a kol. 2022). Minimální frekvenční práh pro zahrnutí slova do modelu byl 10 výskytů v korpusu.

Pro desambiguaci byla použita původní lemmatizace a tagování obsažené v korpusu. V případě vektorů slovních forem se rozumí slovní formy a jejich tag z pozičního tagsetu (srov. https://wiki.korpus.cz/doku.php/en:pojmy:tag) oddělené '>'.

Publikovaný balíček poskytuje modely natrénované jak na slovní formy, tak pro lemmata. Kromě toho modely kombinují tréninkové algoritmy (CBOW a Skipgram) a rozměry výsledných vektorů (100 nebo 500), zatímco tréninkové okno a negativní vzorkování zůstalo během tréninku stejné.

Balíček také obsahuje soubory s frekvencemi slovních forem (vocab-frequencies.forms) a lemmat (vocab-frequencies.lemmas).

Klíčová slova

package word embeddings czech from large corpus