Komprese semistrukturovaných dokumentů

Publikace na Matematicko-fyzikální fakulta |

2007

Abstrakt

EGOTHOR je vyhledávací stroj indexující web a umožňující hledat webovské dokumenty. Jím dodávaný seznam hitů obsahuje, URL a název hitu, a také snippet snažící se stručně ukázat shodu.

Snippet může být téměř vždy vytvořen algoritmem, který úplnou zanlost původního dokumentu (většinou HTML stránky). Z toho plyne, že vyhledávací stroj si musí jako součást indexu uchovávat ke všem dokumentům jejich plné znění. Takovýto požadavek nás vede k odpovídajícím kompresním algoritmům, které umožní zredukovat nároky na místo.

Jedním z řešení je použít stávající běžně dostupné metody jako je gzip či bzip2, ale může být výhodnější vyvinout novou metodu, která by mohla využít strukturu dokumentu či textový charakter těch dokumentů. Pro kompresi XML dokumentů již existují specializované kompresní metody. Cílem tohoto příspěvku je integrace těchto dvou přístupů k dosažení optimálního kompresního poměru.

Klíčová slova

Compression Semistructured Documents