Charles Explorer logo
🇨🇿

Korpus ORAL: sestavení, lemmatizace a morfologické značkování

Publikace na Filozofická fakulta |
2017

Abstrakt

Příspěvek poskytuje přehled o struktuře a obsahu brzy dostupného mluveného korpusu ORAL, který spojuje dříve publikované korpusy (ORAL2006, ORAL2008 a ORAL2013) s nově přepsaným materiálem do jediného snadno přístupného a bohatěji anotovaného zdroje o přibližné velikosti 6 milionů slov. Nahrávky a příslušné přepisy pochází z let 2002 až 2011; většina z nich zachycuje interakce vzájemně dobře obeznámených řečníků v neformálních situacích a přirozeném prostředí.

Korpus je doplněn malou částí formálních dat, většinou veřejných rozhovorů. Je taggován a lemmatizován.

Doufáme, že dostupnost takového zdroje vyvolá další diskusi o morfologickém a syntaktickém rozboru mluveného jazyka, což by mohlo v budoucnu vést k radikálnějšímu značkování slovních druhů, které doposud vychází z jazykové analýzy psaného jazyka.