Charles Explorer logo
🇨🇿

Od korpusu jako otevřeného zdroje pro bádání ke komerčním produktům

Publikace na Katolická teologická fakulta |
2007

Abstrakt

Korpusy se vyvinuly zčistých textů vsofistikované, značkované nástroje. Poskytují rychlé a zdánlivě nenapadnutelné odpovědi na komplikované dotazy o jazyku. Příspěvek předkládá důvody, pro které tyto odpovědi ne vždy popisují jazyk; příklady jsou zčeského reprezentativního korpusu SYN2000: (1) Texty jsou často reprezentovány vtakové podobě, jak (by) je nikdo nepublikoval. (2) Značkování jazykových jevů má daleko k plauzibilitě, a to jak co do koncepce, tak co do implementace značek. (3) Ani tehdy, když statistická data jsou spolehlivá, explanaci jazykových jevů nelze derivovat zdat; získává se nad daty, interpretací dat. (4) Vědeckému výzkumu jazyka je spíš na překážku než k pomoci rozvoj takových korpusových nástrojů, u nichž badatel nemůže nastavit pracovní parametry (případ WordSketches). A tak čím sofistikovanější jsou korpusové nástroje, tím nižší je záruka vědecky plauzibilních výsledků, resp. tím víc starostí je stím, jak výsledky učinit plauzibilními. To, co nabízí tzv. korpusová lingvistika,