Charles Explorer logo
🇨🇿

ONLINE: monitorovací korpus internetové češtiny

Publikace

Abstrakt

Korpus ONLINE (vnitřně členěný na dva zdroje ONLINE_NOW a ONLINE_ARCHIVE) představuje monitorovací korpus, který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku, diskuse a sociální sítě, od roku 2017 do současnosti. Byl vytvořen v ČNK na základě dat, která laskavě poskytuje společnost Dataweps.

Obě části korpusu se liší svým rozsahem a periodicitou aktualizace: ONLINE_NOW - obsahuje data z aktuálního měsíce a 6 měsíců předcházejících, aktualizuje se denně a ONLINE_ARCHIVE - obsahuje data od února 2017 až po měsíc, jímž začíná ONLINE_NOW, aktualizuje se vždy na začátku měsíce. Korpusy se v pokrytých časových obdobích nepřekrývají, pro hledání v celém časovém rozsahu tak stačí sloučit výsledky dotazů do obou korpusů a další manuální úpravy k odstranění průniku nejsou nutné.

Korpusy jsou identické ve své struktuře a značkování, následující popis tedy mezi nimi nerozlišuje.