Charles Explorer logo
🇨🇿

ParCzech 3.0: Velký český mluvený korpus s bohatými metadaty

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Uvádíme ParCzech 3.0, mluvený korpus záznamů jednání Poslanecké sněmovny Parlamentu České republiky z období od 25. listopadu 2013 do 1. dubna 2021. Na rozdíl od předchozích mluvených korpusů češtiny zachováváme nejen ortografii, ale také všechna dostupná metadata (identitu mluvčích, pohlaví, hypertextové odkazy, příslušnosti, politické strany atd.) a doplňujeme je automatickou morfologickou a syntaktickou anotací a rozpoznáním pojmenovaných entit.

Korpus je kódován ve formátu TEI, který umožňuje přímočaré a mnohostranné využití. Díky bohatým metadatům a anotaci je korpus relevantní pro široké spektrum výzkumníků od inženýrů v oblasti rozpoznávání řeči až po teoretické lingvisty zkoumající rétorické vzorce z rozsáhlých materiálů.