Český korpus právních textů 1.0

Publikace na Matematicko-fyzikální fakulta |

2016

Abstrakt

Představujeme nového člena rodiny pražských závislostních korpusů. Český korpus právních textů je morfologicky a syntakticky anotovaný korpus 1128 vět, který obsahuje texty z právní domény, konkrétně dokumenty ze Sbírky zákonů České republiky. Právní texty se odlišují od jiných domén v několika jazykových jevech vyplývajících z vysoké četnosti velmi dlouhých vět.

Manuální anotace takových vět představuje novou výzvu. Popisujeme strategii a nástroje pro tento úkol.

Korpus je dostupný několika způsoby, a sice z repozitáře LINDAT/CLARIN a on-line pomocí aplikací KonText a TreeQuery.

Klíčová slova

český korpus právních textů