Como funciona o robots.txt?

Comandos que você vai precisar conhecer antes de editar seu robots.txt:

Disallow: vem do inglês e significa “não permitir”. Quando se utiliza esse comando, a orientação ao robô é não indexar o conteúdo. De maneira geral, todos os conteúdos dentro de um website são passíveis de indexação. Caso não queira que um diretório ou página dentro do seu site seja indexado, deve bloqueá-lo usando o disallow.

Por exemplo: Dentro de meu site, tenho a página “sugestoes.html”, com o fim de que usuários deem sugestões ao meu negócio. Não quero que essa página seja indexada ao mecanismo de pesquisa do Google, portanto em meu robots.txt informarei:

Disallow: sugestoes.html

Também é possível bloquear o acesso a diretórios e pastas dentro do seu site usando o mesmo caminho, mas ao invés de informar a página exata dentro do site, usa-se:

/conteudo - assim, arquivos e diretórios que começarem com “conteudo” não serão indexados pelo Googlebot;

/conteudo/ - o diretório “conteudo” dentro do seu site não será indexado pelo Googlebot;

Feito! Seguindo esses passos você limita o que não deve ser indexado pelo Google como resultado de pesquisa relacionado à sua página. Vamos agora aprender como permitir a indexação com o comando “Allow”.

Allow: também do inglês, significa “permitir”. Ao utilizar esse comando, orienta o robô a indexar os conteúdos presentes no diretório em questão. Quando não se configura o robots.txt, o robô entende que todo o conteúdo do seu site pode ser indexado. Assim, utiliza-se o comando “Allow” quando um bloqueio foi feito para um diretório dentro do seu site, mas é necessário que se indexe uma outra página que está contida nesse diretório. Por exemplo: dentro do diretório “/conteudo” que bloqueamos acima, existe um “/faleconosco”. É importante para o seu negócio, certo? Assim, podemos permitir a indexação apenas dessa página dentro do diretório. Utiliza-se:

Allow: /conteudo/faleconosco

Pronto! Dentro de “conteudo”, o robô do Google só irá coletar as informações contidas na págica “Fale Conosco”.

User-agent: define qual robô deve seguir a regra de indexação. Exemplo: “User-agent: Googlebot” ou “User-agent: Yahoobot” ou ainda “User-agent: Googlebot-images” (robô no Google Imagens). Quando não se aplica a regra para um robô em específico, utiliza-se “User-agent: *”.

Se você tem a oportunidade de editar o arquivo robots.txt tenha muito cuidado.

Não é algo que você deve fazer com frequência, mas vale a pena utilizar as configurações corretas a seu favor.

Primeiros passos com arquivos robots? Então utilize esse exemplo

User-agent: *
Disallow:

Aqui estamos permitindo indexação de todas as páginas de seu site.

Outro bom primeiro exemplo é:

User-agent: *Disallow:Sitemap: https://www.meusite.com.br/sitemaps/sitemap.xml.gz

Abaixo vou dar exemplos de sitemaps de sites populares no Google e de sites bem indexados nos buscadores.

Um exemplo do site da americanas que você pode acessar em https://www.americanas.com.br/robots.txt

User-agent: Disallow: /busca{“id”:{“id”:Disallow: /avaliacao
Disallow: /parceiros
Disallow: /product-description
Disallow: /portal
Disallow: /garantia
Disallow: /estaticapopDisallow: {“id”:{“id”:
{“id”:{“id”:
Disallow: /f//*/Disallow: /*cage.htmlSitemap: https://www.americanas.com.br/sitemaps/americanas.xml.gz

Loja integrada é um outro bom exemplo:

User-agent: *
Disallow: /conta/*
Disallow: /carrinho/index
Disallow: /carrinho/produto/*
Disallow: /buscar
Disallow: /documentacao
Disallow: /api/produto/calcular_frete
Disallow: /*fq=
Crawl-delay: 10User-agent: DirBuster-0.12
Disallow: /User-agent: Baiduspider
Disallow: /User-agent: Baiduspider-video
Disallow: /User-agent: Baiduspider-image
Disallow: /User-agent: Baiduspider+
Disallow: /User-agent: TwengaBot-Discover
Disallow: /User-agent: TwengaBot
Disallow: /User-agent: TwengaBot-2.0
Disallow: /User-agent: MJ12bot
Disallow: /User-agent: BDCbot
Disallow: /User-agent: spbot
Disallow: /User-agent: LinkpadBot
Disallow: /User-agent: WBSearchBot
Disallow: /User-agent: AddThis.com robot tech.support@clearspring.com
Disallow: /User-agent: AddThis.com
Disallow: /User-agent: Exabot
Disallow: /User-agent: YandexImages
Disallow: /User-agent: Yandex
Disallow: /User-agent: Slurp
Disallow: /User-agent: spbot
Disallow: /User-agent: AhrefsBot
Disallow: /User-agent: EveryoneSocialBot
Disallow: /Sitemap: https://www.lojaintegrada-loja.com.br/sitemap.xml

Algumas plataformas impedem você editar o arquivo robots.txt e tem uma configurações padrão para todos os sites, estes é um exemplo de qualquer loja virtual hospedada na Loja Integrada, que tem uma peculiar filtro de bots.

Dúvidas? Comente neste tópico e ajuda mais usuários a entender melhor sobre SEO e marketing digital. :grin: