SYN v12: korpus současné psané češtiny

Publikace

Abstrakt

Synchronní korpus o celkovém rozsahu přes 5 mld. textových slov (tj. více něž 6 mld. tokens), který zachycuje psanou češtinu především z let 1990-2022. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu).

Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti ke klasifikaci textů. Rozdíl oproti předchozí verzi, korpusu SYN v11, spočívá jednak v aktualizaci publicistiky (přidání textů z roku 2022 v rozsahu cca 150 mil. textových slov) a jednak ve vylepšení lemmatizace a morfologického značkování.

Klíčová slova

jazykový korpus čeština