Charles Explorer logo
🇨🇿

CzeSL-man v1 searchable - korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného víceúrovňového schématu

Publikace

Abstrakt

CzeSL-man v1 searchable obsahuje přepisy textů vytvořených nerodilými mluvčími češtiny. Je to ručně anotovaná část textů z automaticky anotovaného korpusu CzeSL-SGT.

Ruční chybová anotace je zjednodušená verze dvoustupňového anotačního schématu, vytvořeného pro projekt CzeSL. Anotace obsahuje opravy zdrojového textu - cílovou hypotézu, typy chyby, morfosyntaktické kategorie a lemmata pro opravený text a závislostní syntaktickou strukturu a funkce opraveného textu.

Morfologická a syntaktická anotace je provedena automaticky. Texty jsou vybaveny metadaty o autorovi a textu.

Korpus lze prohledávat on-line pomocí vyhledávače KonText v Českém národním korpusu. Korpus lze získat také jako dataset ve formátu PML/feat (viz http://utkl.ff.cuni.cz/learncorp/ - CzeSL-man v1 downloadable).

Kromě jiného formátu se verze searchable se liší od verze downloadable ve dvou aspektech: (i) neexistují žádné texty s alternativní chybovou anotací, každý text je anotován jen jedním anotátorem, a (ii) dvoustupňové anotační schéma je zjednodušeno tak, aby konvenovalo vyhledávacímu nástroji, který je orientován na anotaci po tokenech (slovech).