Charles Explorer logo
🇨🇿

Komprese konkatenovaných webových stránek pomocí XBW

Publikace na Matematicko-fyzikální fakulta |
2008

Abstrakt

XBW je modulární program pro bezeztrátovou kompresi, který umožňuje testovat různé kombinace algoritmů. Nejlepší výsledky jsme získali pro následující nastavením: Parseru v XML módu s dělením na slova nebo slabiky.

Jako hlavní kompresní metoda byla použita Burrows-Wheelerova transformace. Motivací pro tvorbu parseru byla komprese špatně formovaných XML souborů, které používá fulltextový systém EGOTHOR.

Každý soubor obsahuje 1000 webových stránek a má průměrnou velikost 20 MB. Na těchto souborech jsem dosáhli dvojnásobně lepšího kompresního poměru než bzip2 při pouze dvojnásobné době komprese.

V programu XBW jsou implementovány následující kompresní algoritmy: BWT, MTF, RLE, LZSS, LZC, PPM, Huffmanovo kódování a aritmetické kódování.