Motores de busca

Introdução

Search Engine refere-se a um enorme banco de dados de recursos da Internet, como páginas da web, grupos de notícias, programas, imagens, etc. Ajuda a localizar informações na rede mundial de computadores.

O usuário pode pesquisar qualquer informação, passando a consulta na forma de palavras-chave ou frase. Em seguida, ele procura informações relevantes em seu banco de dados e retorna ao usuário.

Componentes do Search Engine

Geralmente, existem três componentes básicos de um mecanismo de pesquisa, conforme listado abaixo:

  1. Web Crawler

  2. Database

  3. Interfaces de pesquisa

Rastreador da web

Também é conhecido como spider ou bots. É um componente de software que percorre a web para coletar informações.

Base de dados

Todas as informações da web são armazenadas em banco de dados. Consiste em enormes recursos da web.

Interfaces de pesquisa

Este componente é uma interface entre o usuário e o banco de dados. Ajuda o usuário a pesquisar no banco de dados.

Motor de pesquisa funcionando

O rastreador da Web, o banco de dados e a interface de pesquisa são o principal componente de um mecanismo de pesquisa que realmente faz o mecanismo de pesquisa funcionar. Os mecanismos de pesquisa usam a expressão booleana AND, OR, NOT para restringir e ampliar os resultados de uma pesquisa. A seguir estão as etapas que são executadas pelo mecanismo de pesquisa:

  • O mecanismo de busca procura a palavra-chave no índice de banco de dados predefinido em vez de ir diretamente para a web para procurar a palavra-chave.

  • Em seguida, ele usa um software para pesquisar as informações no banco de dados. Este componente de software é conhecido como rastreador da web.

  • Depois que o rastreador da web encontra as páginas, o mecanismo de pesquisa mostra as páginas da web relevantes como resultado. Essas páginas da web recuperadas geralmente incluem o título da página, o tamanho da parte do texto, as primeiras frases, etc.

Esses critérios de pesquisa podem variar de um mecanismo de pesquisa para outro. As informações recuperadas são classificadas de acordo com vários fatores, como frequência de palavras-chave, relevância das informações, links etc.

  • O usuário pode clicar em qualquer um dos resultados da pesquisa para abri-lo.

Arquitetura

A arquitetura do mecanismo de pesquisa compreende as três camadas básicas listadas abaixo:

  • Coleta e refinamento de conteúdo.

  • Núcleo de pesquisa

  • Interfaces de usuário e aplicativo

Processamento de mecanismo de pesquisa

Processo de Indexação

O processo de indexação compreende as seguintes três tarefas:

  • Aquisição de texto

  • Transformação de texto

  • Criação de índice

Aquisição de texto

Ele identifica e armazena documentos para indexação.

Transformação de Texto

Ele transforma o documento em termos de índice ou recursos.

Criação de Índice

Ele pega termos de índice criados por transformações de texto e cria estruturas de dados para suportar pesquisas rápidas.

Processo de Consulta

O processo de consulta compreende as seguintes três tarefas:

  • Interação com o usuário

  • Ranking

  • Evaluation

Interação com o usuário

Suporta a criação e o refinamento da consulta do usuário e exibe os resultados.

Ranking

Ele usa consulta e índices para criar uma lista classificada de documentos.

Avaliação

Ele monitora e mede a eficácia e eficiência. Isso é feito offline.

Exemplos

A seguir estão os vários mecanismos de pesquisa disponíveis hoje:

Motor de busca Descrição
Google Foi originalmente chamado BackRub. É o mecanismo de busca mais popular do mundo.
Bing Foi lançado em 2009 por Microsoft. É o mais recente mecanismo de busca baseado na web que também fornece os resultados do Yahoo.
Pergunte Foi lançado em 1996 e era originalmente conhecido como Ask Jeeves. Inclui suporte para correspondência, dicionário e pergunta de conversação.
AltaVista Foi lançado por Digital Equipment Corporation em 1995. Desde 2003, ele é movido pela tecnologia Yahoo.
AOL.Search É desenvolvido pelo Google.
LYCOS É o 5º maior portal da Internet e a 13ª maior propriedade online de acordo com a Media Matrix.
Alexa É subsidiária da Amazon e usada para fornecer informações sobre o tráfego do site.