Charles Explorer logo
🇨🇿

Pražský závislostní korpus - Konsolidované vydaní 1.0

Publikace na Matematicko-fyzikální fakulta |
2020

Abstrakt

Představujeme bohatě anotovaný a žánrově diverzifikovaný jazykový zdroj Prague Dependency Treebank-Consolidated 1.0 (PDT-C 1.0), jehož účelem je - jak tomu vždy bylo u rodiny Pražských závislostních korpusů - sloužit jako trénovací data pro různé typy úkolů NLP i pro jazykově orientovaný výzkum. PDT-C 1.0 obsahuje čtyři různé datové soubory s českými texty, jednotně anotované podle standardního schématu PDT.

Texty pocházejí z různých zdrojů: novinové články, český překlad Wall Street Journal, přepsané dialogy a malé množství uživatelem vytvořených krátkých, často nestandardních jazykových segmentů, které se zadávají do webového překladače. Celkem obsahuje strom kolem 180 000 vět s jejich morfologickou, povrchovou a hlubokou syntaktickou anotací.