Web crawler

2955 palavras 12 páginas
UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO TECNOLÓGICO
DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA
CURSO DE SISTEMAS DE INFORMAÇÃO

RELATÓRIO WEB CRAWLERS

FLORIANÓPOLIS, 2013
1

SUMÁRIO

1. Introdução…………………………………………………………………………………….3
2. Desafios………………………………………………………………………………………4
3. Políticas……………………………………………………………………………………….5
a. Seleção……………………………………………………………………………….5
i.
Similarity to a Driven Query………………………………………………..5 ii. Backlink count………...…………………………………………………….5 iii. PageRank……………………………………………………………………5 iv. Forward Link Count…………………………………………………………6
v.
Location Metric………………………………………………………………6
b. Revisita……………………………………………………………………………….6
i.
Freshness……………………………………………………………………7 ii. Age…………………………………………………………………………...7
c. Cortesia……………………………………………………………………………….7
d. Paralelização…………………………………………………………………………8
i.
Overlap……………………………………………………………………….8 ii. Quality………………………………………………………………………...8 iii. Comunication bandwith……………………………………………………...8 iv. Scalability………………………………………………………………….….8
v.
Network­load dispersion………………….………………………………….8 vi. Network­load resuction………………………………………………………8
4. Arquitetura…………………………………………………………..…………………...…….8
a. Coletores………………………………………………………………………………9
b. Servidor de armazenamento………………………………………………………...9
c. Servidor de nomes…………………………………………………………………..10
d. Escalonador………………………………………………………………………….10
5. Identificação………………………………………………………………………………..…11
6. Recomendações……………………………………………………………………………..11
7. Exemplos……………………………………………………………………………………..12
8. Referências…………………………………………………………………………………..12

2

1. INTRODUÇÃO
Hoje a internet possui cerca de 3.77 bilhões de páginas indexadas, esse grande número de informações é originado pelo crescente avanço nas tecnologias da informação e comunicação.
Além das páginas web, é crescente o número de e­mails, e­books, logs de sistema, currículos, manuais dos mais diversos tipos, relatórios, entre outros tipos

Relacionados

  • Web crawlers
    456 palavras | 2 páginas
  • crawler
    617 palavras | 3 páginas
  • Tecnologo
    1697 palavras | 7 páginas
  • Algoritmo page rank
    3234 palavras | 13 páginas
  • aaaa
    1534 palavras | 7 páginas
  • ModeloSbc
    4766 palavras | 20 páginas
  • TIDIR III Pr Projeto
    1032 palavras | 5 páginas
  • Metrologia
    443 palavras | 2 páginas
  • Aprendendo
    844 palavras | 4 páginas
  • trabalho cc1
    2432 palavras | 10 páginas