Como funciona o algoritmo do google

Disponível somente no TrabalhosFeitos
  • Páginas : 8 (1970 palavras )
  • Download(s) : 0
  • Publicado : 10 de março de 2013
Ler documento completo
Amostra do texto
Como funciona o algoritmo do Google
Publicado por Diego Ivo, em 23/07/2012, nas categorias: Curso de SEO, Google, OpenSEO, SEO
*
*
*
Agora que já compreendemos a filosofia por trás do Google, vamos entender de uma maneira geral como é feita uma pesquisa no buscador mais famoso do mundo (ou em qualquer buscador.) O primeiro ponto para que se possa fazer a busca é ter a base dedados com nada menos que boa parte do conteúdo na Internet. Usamos o verbo “indexar” para se referir ao que vai ser armazenado nessa enorme base de dados. Ou seja, é preciso haver uma indexação de todas as páginas.
Os buscadores anteriores ao Google não indexavam todos os sites da web. Eles trabalhavam como o Dmoz.org trabalha até hoje: ao se fazer uma pesquisa nele, era consultada uma base dadoscom informações cadastradas manualmente ou enviadas pelos proprietários de web sites.
Embora seja possível se cadastrar no Google, na maioria das vezes não é preciso realizar nenhum tipo de submissão ao buscador pois ele “descobre” sua página ao fazer a varredura da web com seu “crawler”.
Googlebot, o web cralwer
Um crawler é um software de computador que salva em sua base de dados todas aspáginas que encontrar na web, exceto aquelas que bloquearem seu acesso ou que por algum comando interno seja orientado a não indexar. Os crawler podem ser usados para diversos fins, desde backup de um site, busca de informações ou para armazenamento de todos os sites para consulta posterior e publica através de mecanismos de busca como Bing ou Google.
Googlebot é o crawler do Google, grande responsávelpor todas as páginas estarem indexadas, e também pela frequência de atualização das páginas no Google.  O que, basicamente, um crawler faz é acessar uma lista de milhões de links já disponíveis, atualizar a informação e seguir todos os novos links disponíveis nas páginas e novas páginas, para garantir que pesquise em todas as páginas da web.
O Googlebot irá determinar a frequência com que visitauma página segundo uma série de fatores, dentre eles a importância daquela página (sites muito importantes podem ser acessados a cada minuto, já outros sites podem ficar semanas sem visita do crawler) e mesmo frequência de atualização. O objetivo do Googlebot é ter o número máximo de páginas o mais atualizadas quanto possível, mas como há um custo para cada varredura o algoritmo do Google usa umafórmula para equacionar qualidade da informaçãoo e custos para a empresa.
Tratamento das informações
Após indexar tantas páginas, o Google precisa tratar as informações e organizá-las para que ao ser realizada uma consulta se consiga da maneira mais rápida possível (em menos de um segundo) fazer uma varredura em toda a base de dados para trazer a informação desejada.
Para isso, as informaçõesficam segmentadas por uma série de critérios como palavra-chave, assunto, país, data, idioma, buscando criar uma abstração das informações. Trabalha-se também com um cache poderoso para evitar a consulta à base de dados tanto quanto possível, mas isso deve ser feito de uma maneira abstrata uma vez que boa parte das consultas é única.
Não vamos entrar nesse assunto, até porque não éespecificamente nossa área de conhecimento, mas basta mantermos em mente que o Google lida com rotas de informação e por isso consegue realizar tantas consultas e tão rapidamente.
As rotas de pesquisa são muito importantes para economizar servidores. Imagine que se pesquise por “história do Brasil”: por um filtro pré-feito (em “cache”), provavelmente há as páginas que contêm o termo “história”, “do” e“brasil”. Dessa lista de sites, o Google realizará uma nova pesquisa, muito mais simplificada.
Porém, não menos simples. Com as rotas de pesquisa, o algoritmo do Google já saberá em quais sites não pesquisar mas é preciso uma fórmula para ordernar os resultados, ou seja, qual o critério para um site estar bem ou mal posicionado.
Antes, porém, de falarmos de ordenação de resultados vamos entender como...
tracking img