Charles Explorer logo
🇨🇿

Victor: nástroj pro čištění webových stránek

Publikace na Matematicko-fyzikální fakulta |
2008

Abstrakt

V tomto článku prezentujeme kompletní řešení pro automatické čištění HTML stránek, jehož cílem je použití webových dat pro vytvoření korpusu textů pro zpracování přirozeného jazyka nebo pro lingvistiku. Používáme algoritmus sekvenčního značkování Conditional Random Fields.

Každému bloku textu analyzované webové stránky je přiřazena sada rysů extrahovaná z textu a HTML struktury stránky. Blokům jsou pak automaticky přiřazeny značky, které říkají, zda má být blok zachován, nebo odstraněn.

Naše řešení je založeno na nástroji z CLEANEVAL 2007.