Charles Explorer logo
🇨🇿

PDTSC 2.0 - Korpus mluveného jazyka anotovaný na více rovinách

Publikace na Matematicko-fyzikální fakulta |
2017

Abstrakt

Představujeme bohatě anotovaný zdroj mluveného jazyka: Pražský závislostní korpus mluvené češtiny, verze 2.0, který je primárně určen pro úlohy NLP orientované na zpracování mluvené řeči, ale najde využití i v nejrůznějších lingvistických studiích. Korpus představuje unikátní anotační schéma: audio, transkript, morfologická, syntaktická a sémantická anotace, které je obdobné jako v ostatních PDT korpusech.

Navíc obsahuje novou anotaci: rekonstrukci řeči. Korpus je volně dostupný.