V současné době je jazyk XML využíván téměř ve všech oblastech lidské činnosti. Jeho popularita vychází především z faktu, že se jedná o samopopisný metaformát, který umožňuje definovat strukturu XML dat prostřednictvím jazyků jako je DTD nebo XML Schema.
Díky tomu jsme svědky masivního rozvoje metod pro správu, dotazování, modifikaci a kompresi XML dat. Na druhou stranu můžeme u většiny těchto metod nalézt úzká místa snižující jejich celkovou efektivitu.
Zřejmě hlavním důvodem je fakt, že tyto přístupy uvažují XML data příliš obecně, přestože jsou reálné XML dokumenty mnohem jednodušší. A pokud metoda vstupní data omezuje, je takové omezení často nepřirozené.
V tomto příspěvku diskutujeme reálnou složitost XML kolekcí a jejich schémat, která se ukazuje jako překvapivě nízká. Do analýzy jsou zahrnuty výsledky existujících článků na podobné téma i naše vlastní.
Cílem analýzy je nalézt důvody těchto tendencí a jejich důsledky.