Charles Explorer logo
🇨🇿

ParlaMint: Porovnatelné korpusy evropských parlamentních dat

Publikace na Matematicko-fyzikální fakulta |
2021

Abstrakt

Tento článek popisuje projekt ParlaMint z hlediska jeho cílů, úkolů, účastníků, výsledků a aplikačního potenciálu. Projekt vytvořil jazykové korpusy ze zasedání národních parlamentů 17 zemí, celkem téměř půl miliardy slov.

Korpusy jsou rozděleny na subkorpusy související s COVID (od listopadu 2019) a referenční korpusy (do října 2019). Korpusy jsou jednotně kódovány podle schématu ParlaMint se stejnými lingvistickými anotacemi podle Universal Dependencies.

Ukázky korpusů a konverzních skriptů jsou dostupné z GitHub úložiště projektu. Kompletní korpusy je volně dostupné ke stažení přes repozitář CLARIN.SI a přes concordancery NoSketch Engine a KonText i přes rozhraní Parlameter pro procházení a analýzu.