Charles Explorer logo
🇨🇿

Statistiky reálných XML dat

Publikace na Matematicko-fyzikální fakulta |
2006

Abstrakt

V současné době je jazyk XML využíván téměř ve všech oblastech lidské činnosti. Jeho popularita vychází především z faktu, že se jedná o samopopisný metaformát, který umožňuje definovat strukturu XML dat prostřednictvím jazyků jako je DTD nebo XML Schema.

Díky tomu jsme svědky masivního rozvoje metod pro správu, dotazování, modifikaci a kompresi XML dat. Na druhou stranu můžeme u většiny těchto metod nalézt úzká místa snižující jejich celkovou efektivitu.

Zřejmě hlavním důvodem je fakt, že tyto přístupy uvažují XML data příliš obecně, přestože jsou reálné XML dokumenty mnohem jednodušší. A pokud metoda vstupní data omezuje, je takové omezení často nepřirozené.

V tomto příspěvku diskutujeme reálnou složitost XML kolekcí a jejich schémat, která se ukazuje jako překvapivě nízká. Do analýzy jsou zahrnuty výsledky existujících článků na podobné téma i naše vlastní.

Cílem analýzy je nalézt důvody těchto tendencí a jejich důsledky.

Klíčová slova