Web crawlers

Disponível somente no TrabalhosFeitos
  • Páginas : 2 (456 palavras )
  • Download(s) : 0
  • Publicado : 14 de novembro de 2012
Ler documento completo
Amostra do texto
1. Introdução


Este trabalho tem como intuito demonstrar as características e funcionalidades de um Web Crawler, com o intuito de demonstrar como este pode ser aplicado em diversas áreas com ointuito de obter informações e até mesmo mapear uma determinada gama de sites. Muito utilizado por empresas que possuem engine de busca como o Google, devido a necessidade de obter dados e indexartodos estes sites.


2. Web Crawlers


2.1. O que são e para que servem?

Os Web Crawlers são programas automatizados ou scripts com o intuito de escanear determinadas páginas com o intuito deefetuar varreduras na internet de maneira sistemática através da informação vista como importante a sua função. Podem também ser chamados de spiders e robôs. Seu funcionamento é basicamente a capturados textos com o objetivo de construir uma lista de palavras e frases e assim alimentar um banco para as próximas buscas, outra informação obtida são os novos links encontrados que possibilitam novasconsultas, esta funcionalidade proporciona uma das bases das Search Engines utilizadas no mercado.
Web Crawlers também são utilizados para efetuar tarefas de manutenção automatizadas em um site,checando links e validando o código gerado. Este também é utilizado por pesquisadores de mercado, tendo em vista seu poder de obter um tipo específico de informação, um exemplo desta utilização sãosistemas de e-mail que tentam encontrar e-mails qualificados como spam.


2.2. Dificuldade da utilização

Devido a dinamicidade da Web, os Web Crawlers podem ter algumas dificuldades em mapear amesma, além deste ponto o grande volume e a geração de páginas dinâmicas aumentam tal dificuldade.




2.3. Escalonamento

Devido as dificuldades mostradas no item anterior surgiu a necessidade dacriação de técnicas de escalonamento com o intuito de uma busca mais eficiente, este coordena as ações dos coletores e garante que não haverá coletas repetidas.

2.4. Robots.txt

Arquivo que...
tracking img