Charles Explorer logo
🇨🇿

Koditex - korpus diverzifikovaných textů

Publikace na Filozofická fakulta |
2019

Abstrakt

Tento článek se zaměřuje na popis nového reprezentativního a referenčního korpusu současné češtiny Koditex obsahujícího 9 milionů textových slov. Koditex byl navržen tak, aby byl co nejrozmanitější za účelem provedení multidimenzionální analýzy (MDA) češtiny.

Na nejvyšší úrovni je korpus rozdělen do tří komunikačních módů: psaného jazyk, mluveného jazyk a webové komunikace. Kromě účelu MDA by mohl být použit při provádění dalších jazykových analýz.