Charles Explorer logo
🇨🇿

Opravy nevalidních XML dokumentů vůči jednotypovým stromovým gramatikám

Publikace na Matematicko-fyzikální fakulta |
2011

Abstrakt

XML dokumenty a související technologie reprezentují široce akceptovaný standard pro správu semistrukturovaných dat. Překvapivě vysoké množství XML dokumentů je však ovlivněno chybami dobré formovanosti, strukturální validity nebo datových nekonzistencí.

Cílem tohoto článku je návrh korekčního systému založeného na strukturálních opravách elementů s ohledem na jednotypové stromové gramatiky. Pomocí inspekce stavového prostoru konečného automatu na rozpoznávání regulárních výrazů jsme vždy schopni najít všechny minimální opravy s ohledem na definovanou cenovou funkci.

Tyto opravy jsou kompaktně reprezentovány jako nejkratší cesty v rekurzivně vnořovaných multigrafech, které můžeme transformovat do konkrétních sekvencí editačních operací upravujících XML stromy. Navrhli jsme efektivní algoritmus a poskytli prototypovou implementaci.