Charles Explorer logo
🇨🇿

RExtractor: robustní informační extraktor

Publikace na Matematicko-fyzikální fakulta |
2015

Abstrakt

RExtractor je systém pro extrakci informací. Vstupní dokumenty jsou zpracovány NLP nástroji.

Extrakce následně probíhá pomocí dotazů nad závislostními stromy. Výsledkem je znalostní báze dokumentu, definována jako množina entit a vztahů mezi nima.

Dotazy nad stromy jsou definovány manuálně. Architektura systému je navržena doménově a jazykově nezávisle.

Systém demonstrujeme na českých a anglických právních dokumentech.