Motores de busca
Introdução
Search Engine refere-se a um enorme banco de dados de recursos da Internet, como páginas da web, grupos de notícias, programas, imagens, etc. Ajuda a localizar informações na rede mundial de computadores.
O usuário pode pesquisar qualquer informação, passando a consulta na forma de palavras-chave ou frase. Em seguida, ele procura informações relevantes em seu banco de dados e retorna ao usuário.
Componentes do Search Engine
Geralmente, existem três componentes básicos de um mecanismo de pesquisa, conforme listado abaixo:
Web Crawler
Database
Interfaces de pesquisa
Rastreador da web
Também é conhecido como spider ou bots. É um componente de software que percorre a web para coletar informações.
Base de dados
Todas as informações da web são armazenadas em banco de dados. Consiste em enormes recursos da web.
Interfaces de pesquisa
Este componente é uma interface entre o usuário e o banco de dados. Ajuda o usuário a pesquisar no banco de dados.
Motor de pesquisa funcionando
O rastreador da Web, o banco de dados e a interface de pesquisa são o principal componente de um mecanismo de pesquisa que realmente faz o mecanismo de pesquisa funcionar. Os mecanismos de pesquisa usam a expressão booleana AND, OR, NOT para restringir e ampliar os resultados de uma pesquisa. A seguir estão as etapas que são executadas pelo mecanismo de pesquisa:
O mecanismo de busca procura a palavra-chave no índice de banco de dados predefinido em vez de ir diretamente para a web para procurar a palavra-chave.
Em seguida, ele usa um software para pesquisar as informações no banco de dados. Este componente de software é conhecido como rastreador da web.
Depois que o rastreador da web encontra as páginas, o mecanismo de pesquisa mostra as páginas da web relevantes como resultado. Essas páginas da web recuperadas geralmente incluem o título da página, o tamanho da parte do texto, as primeiras frases, etc.
Esses critérios de pesquisa podem variar de um mecanismo de pesquisa para outro. As informações recuperadas são classificadas de acordo com vários fatores, como frequência de palavras-chave, relevância das informações, links etc.
O usuário pode clicar em qualquer um dos resultados da pesquisa para abri-lo.
Arquitetura
A arquitetura do mecanismo de pesquisa compreende as três camadas básicas listadas abaixo:
Coleta e refinamento de conteúdo.
Núcleo de pesquisa
Interfaces de usuário e aplicativo
Processamento de mecanismo de pesquisa
Processo de Indexação
O processo de indexação compreende as seguintes três tarefas:
Aquisição de texto
Transformação de texto
Criação de índice
Aquisição de texto
Ele identifica e armazena documentos para indexação.
Transformação de Texto
Ele transforma o documento em termos de índice ou recursos.
Criação de Índice
Ele pega termos de índice criados por transformações de texto e cria estruturas de dados para suportar pesquisas rápidas.
Processo de Consulta
O processo de consulta compreende as seguintes três tarefas:
Interação com o usuário
Ranking
Evaluation
Interação com o usuário
Suporta a criação e o refinamento da consulta do usuário e exibe os resultados.
Ranking
Ele usa consulta e índices para criar uma lista classificada de documentos.
Avaliação
Ele monitora e mede a eficácia e eficiência. Isso é feito offline.
Exemplos
A seguir estão os vários mecanismos de pesquisa disponíveis hoje:
Motor de busca | Descrição |
---|---|
Foi originalmente chamado BackRub. É o mecanismo de busca mais popular do mundo. | |
Bing | Foi lançado em 2009 por Microsoft. É o mais recente mecanismo de busca baseado na web que também fornece os resultados do Yahoo. |
Pergunte | Foi lançado em 1996 e era originalmente conhecido como Ask Jeeves. Inclui suporte para correspondência, dicionário e pergunta de conversação. |
AltaVista | Foi lançado por Digital Equipment Corporation em 1995. Desde 2003, ele é movido pela tecnologia Yahoo. |
AOL.Search | É desenvolvido pelo Google. |
LYCOS | É o 5º maior portal da Internet e a 13ª maior propriedade online de acordo com a Media Matrix. |
Alexa | É subsidiária da Amazon e usada para fornecer informações sobre o tráfego do site. |