Web crawlers

456 palavras 2 páginas
1. Introdução

Este trabalho tem como intuito demonstrar as características e funcionalidades de um Web Crawler, com o intuito de demonstrar como este pode ser aplicado em diversas áreas com o intuito de obter informações e até mesmo mapear uma determinada gama de sites. Muito utilizado por empresas que possuem engine de busca como o Google, devido a necessidade de obter dados e indexar todos estes sites.

2. Web Crawlers

2.1. O que são e para que servem? Os Web Crawlers são programas automatizados ou scripts com o intuito de escanear determinadas páginas com o intuito de efetuar varreduras na internet de maneira sistemática através da informação vista como importante a sua função. Podem também ser chamados de spiders e robôs. Seu funcionamento é basicamente a captura dos textos com o objetivo de construir uma lista de palavras e frases e assim alimentar um banco para as próximas buscas, outra informação obtida são os novos links encontrados que possibilitam novas consultas, esta funcionalidade proporciona uma das bases das Search Engines utilizadas no mercado. Web Crawlers também são utilizados para efetuar tarefas de manutenção automatizadas em um site, checando links e validando o código gerado. Este também é utilizado por pesquisadores de mercado, tendo em vista seu poder de obter um tipo específico de informação, um exemplo desta utilização são sistemas de e-mail que tentam encontrar e-mails qualificados como spam.

2.2. Dificuldade da utilização

Devido a dinamicidade da Web, os Web Crawlers podem ter algumas dificuldades em mapear a mesma, além deste ponto o grande volume e a geração de páginas dinâmicas aumentam tal dificuldade.

2.3. Escalonamento

Devido as dificuldades mostradas no item anterior surgiu a necessidade da criação de técnicas de escalonamento com o intuito de uma busca mais eficiente, este coordena as ações dos coletores e garante que não haverá coletas repetidas.

2.4. Robots.txt

Arquivo que deve

Relacionados

  • Web crawler
    2955 palavras | 12 páginas
  • crawler
    617 palavras | 3 páginas
  • Tecnologo
    1697 palavras | 7 páginas
  • Algoritmo page rank
    3234 palavras | 13 páginas
  • aaaa
    1534 palavras | 7 páginas
  • ModeloSbc
    4766 palavras | 20 páginas
  • TIDIR III Pr Projeto
    1032 palavras | 5 páginas
  • Metrologia
    443 palavras | 2 páginas
  • Aprendendo
    844 palavras | 4 páginas
  • trabalho cc1
    2432 palavras | 10 páginas