Data Mining - Mining World Wide Web

A World Wide Web contém grandes quantidades de informações que fornecem uma fonte rica para mineração de dados.

Desafios em Web Mining

A web apresenta grandes desafios para a descoberta de recursos e conhecimento com base nas seguintes observações -

  • The web is too huge- O tamanho da web é muito grande e está aumentando rapidamente. Parece que a web é muito grande para armazenamento e mineração de dados.

  • Complexity of Web pages- As páginas da web não possuem estrutura unificadora. Eles são muito complexos em comparação com documentos de texto tradicionais. Existe uma grande quantidade de documentos na biblioteca digital da web. Essas bibliotecas não são organizadas de acordo com nenhuma ordem de classificação específica.

  • Web is dynamic information source- As informações na web são atualizadas rapidamente. Os dados como notícias, bolsas, meteorologia, esportes, compras, etc., são atualizados regularmente.

  • Diversity of user communities- A comunidade de usuários na web está se expandindo rapidamente. Esses usuários têm diferentes origens, interesses e finalidades de uso. Existem mais de 100 milhões de estações de trabalho conectadas à Internet e ainda aumentando rapidamente.

  • Relevancy of Information - Considera-se que uma determinada pessoa geralmente está interessada em apenas uma pequena parte da web, enquanto o resto da parte da web contém as informações que não são relevantes para o usuário e podem atrapalhar os resultados desejados.

Estrutura de layout de página da Web de mineração

A estrutura básica da página da web é baseada no Document Object Model (DOM). A estrutura DOM se refere a uma estrutura semelhante a uma árvore, onde a tag HTML na página corresponde a um nó na árvore DOM. Podemos segmentar a página da web usando tags predefinidas em HTML. A sintaxe HTML é flexível, portanto, as páginas da web não seguem as especificações W3C. O não cumprimento das especificações do W3C pode causar erros na estrutura da árvore DOM.

A estrutura DOM foi inicialmente introduzida para apresentação no navegador e não para descrição da estrutura semântica da página da web. A estrutura DOM não pode identificar corretamente a relação semântica entre as diferentes partes de uma página da web.

Segmentação de página baseada em visão (VIPS)

  • O objetivo do VIPS é extrair a estrutura semântica de uma página da web com base em sua apresentação visual.

  • Essa estrutura semântica corresponde a uma estrutura de árvore. Nesta árvore, cada nó corresponde a um bloco.

  • Um valor é atribuído a cada nó. Este valor é denominado Grau de Coerência. Este valor é atribuído para indicar o conteúdo coerente no bloco com base na percepção visual.

  • O algoritmo VIPS primeiro extrai todos os blocos adequados da árvore HTML DOM. Depois disso, ele encontra os separadores entre esses blocos.

  • Os separadores referem-se às linhas horizontais ou verticais em uma página da web que se cruzam visualmente sem blocos.

  • A semântica da página da web é construída com base nesses blocos.

A figura a seguir mostra o procedimento do algoritmo VIPS -