Charles Explorer logo
🇨🇿

Nová koncepce synchronních korpusů psané češtiny

Publikace na Filozofická fakulta |
2016

Abstrakt

Článek popisuje SYN2015, nejnovější korpus současné psané češtiny o rozsahu 100 millionů slov. Zabývá se také obecnými pojmy reprezentativnosti a vyváženosti jazykového korpusu, zejména vzhledem ke konceptu reprezentativnosti korpusu SYN2015.

Na rozdíl od starších synchronních korpusů SYN2000, SYN2005 a SYN2010, jejichž složení vycházelo ze sociologických průzkumů recepce textů, je reprezentativnost SYN2015 založena na principu "texts-as-products" s arbitrárními poměry jednotlivých kategorií revidovaného klasifikačního schématu. Článek uvádí tři hlavní výhody tohoto řešení: 1) složení může být stejné i u budoucích korpusů, což umožní srovnatelnost, přestože se recepce neustále mění; 2) klade důraz na pestrost složení korpusu jako vzorku jazyka; 3) korpus SYN2015 tak může sloužit nejenom jako reprezentativní vzorek, ale také jako rozsáhlá zásobárna textů, z níž je možné vytvářet podmnožiny (subkorpusy) podle různých kritérií.