Olá, vamos responder a uma pergunta muito recorrente: Como funciona a indexação de páginas pelos buscadores?
Para que seu site ou blog apareça nos buscadores, ele deverá ser indexado por eles.
O processo é o mesmo para todos os buscadores, vamos focar aqui no do Google.
O Googlebot é um “indexador”, também chamado de “crawler” e ou simplesmente de “bot”. Trata-se de um robô virtual que visita as bilhões de páginas de internet existentes no mundo para reunir informações e indexá-las ao banco de dados do buscador. Ele não é o único. Buscadores de outras empresas como Yahoo! e Bing também cumprem esse papel, coletando informações e indexando-as.
Ao vasculhar uma página da web, o bot salva uma cópia das informações de encontra pelo caminho e é nessas páginas que o Google vai buscar as informações que as tornam compatíveis com o resultado das buscas.
Para manter o serviço funcionando e atendendo à dinamicidade da informação no mundo atual é necessário que todos os processos que se relacionam à coleta de informações pelo robô estejam funcionando perfeitamente. Principalmente, no caso do usuário, filtrar o que pode e o que não pode ser coletado pelos crawlers e que aparecerá na pesquisa no Google ou em qualquer site de busca que utilize dos indexadores. Esse filtro pode ser feito a partir do robots.txt que estará no código-fonte do seu site.
Você deverá se atentar para que páginas com informações pessoais ou dados de compras por exemplo não sejam indexadas. Isso tudo deverá ser configurado no robots.txt, que dirá para os robôs quais páginas deverão ser ignoradas.
Aqui no fórum você encontrará como configurar o robots.txt.
Uma vez indexada, sua página aparecerá como resultado de pesquisa de acordo com as palavras-chave a ela relacionadas.
Dúvidas? Comente aqui!