crawler

617 palavras 3 páginas
Como definição temos:

Crawler

É um software desenvolvido para realizar uma varredura na internet de maneira sistemática através de informação vista como relevante a sua função. Eles capturam os textos das páginas e cadastram os links encontrados e assim possibilitam encontrar novas páginas. São uma das bases das Search Engines, eles são os responsáveis pela indexação dos sites, armazenando-os na base de dados dos motores de busca. Também são conhecidos como Spider ou Bot (robô).

O processo que um Web crawler executa é chamado de Web crawling ou spidering. Muitos sites, em particular os motores de busca, usam crawlers para manter uma base de dados atualizada. Os Web crawlers são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de busca que irá indexar as páginas baixadas para prover buscas mais rápidas. Crawlers também podem ser usados para tarefas de manutenção automatizadas em um Web site, como checar os links ou validar o código HTML. Os crawlers também podem ser usados para obter tipos específicos de informação das páginas da Web, como minerar endereços de email (mais comumente para spam).

Bom, os crawlers do buscadores geralmente procuram informações sobre permissões sobre o conteúdo. Em espcial existem duas formas de bloquear um crawler decente de indexar uma determinada página (e os links nela contidos). A primeira forma, e mais comum, é através do arquivo robots.txt. A outra forma é através da tag meta robots, com valor "noindex" ou "nofollow", usados para não indexar (a própria página) e não seguir (os links contidos na página), respectivamente. Há também uma terceira possibilidade, muito menos explorada, que é o uso do atributo rel="nofollow" em links, indicando ao crawler que aquele link em especial não deve ser seguido.

3.2.1 Robôs
Os robôs também conhecidos como spiders (aranhas) ou Web crawlers (rastejadores), são programas que percorem a estrutura da Web, recolhendo

Relacionados

  • Web crawler
    2955 palavras | 12 páginas
  • Web crawlers
    456 palavras | 2 páginas
  • Tecnologo
    1697 palavras | 7 páginas
  • Algoritmo page rank
    3234 palavras | 13 páginas
  • aaaa
    1534 palavras | 7 páginas
  • ModeloSbc
    4766 palavras | 20 páginas
  • TIDIR III Pr Projeto
    1032 palavras | 5 páginas
  • Metrologia
    443 palavras | 2 páginas
  • Aprendendo
    844 palavras | 4 páginas
  • Como funciona o algoritmo do google
    1970 palavras | 8 páginas