Charles Explorer logo
🇨🇿

Komprese konkatenovaných html stránek pomocí XBW

Publikace na Matematicko-fyzikální fakulta |
2007

Abstrakt

XBW je modulárny program na bezstratovú komprimáciu umožňujúci otestovať rôzne kombinácie algoritmov. Najlepšie výsledky sme dosiahli kombináciou XML parseru vytvárajúceho slovník slabík, alebo slov v kombinácii s Burrows-Wheelerovou transformáciou - odtiaľ názov XBW.

Motiváciou pre vytvorenie parseru, ktorý dokáže spracovať nevalidné XML a HTML súbory, bol systém Egothor na fulltextové vyhľadávanie. Na súboroch veľkosti okolo 20MB, tvorených stovkami webových stránok, sme dosiahli dva krát lepší kompresný pomer v porovnaní s bzip2 za cenu iba dvojnásobného času.

Na menších súboroch má náš program veľmi dobré výsledky oproti konkurencii najmä pre jazyky z bohatým tvaroslovím ako je napríklad slovenčina alebo nemčina. Pre ľubovolné veľké textové súbory náš program poskytuje dobrý pomer medzi kompresiou a časom behu. Program XBW umožňuje kombinovať parser a kóder s ľubovolným implementovaným algoritmom na kompresiu.

Okrem už spomínanej Burrows-Wheelerovej transformácie, ktorá spolu s MTF a RLE tvorí