Charles Explorer logo
🇨🇿

Victor

Publikace

Abstrakt

Victor je nástroj pro čištění webových stránek. Používá algoritmus sekvenčního značkování Conditional Random Fields.

Každému bloku textu analyzované webové stránky je přiřazena sada rysů, která je extrahovaná z textu a HTML struktury stránky. Blokům jsou pak automaticky přiřazeny značky, které říkají, zda má být blok zachován, nebo odstraněn.

Klíčová slova