Robots.txt: instruções para web crawlers

O arquivo robots.txt é como um guia para mecanismos de busca, como o Google, indicando quais partes do seu site podem ser exploradas e quais devem ser ignoradas.

Ele ajuda a direcionar a atenção dos mecanismos de busca para as páginas que você quer destacar, ao mesmo tempo que ajuda a proteger áreas sensíveis ou privadas do site.

Índice

O que é robots.txt?

O arquivo robots.txt é um arquivo de texto simples que instrui os robôs dos mecanismos de busca sobre quais páginas ou seções de seu site devem ou não ser rastreadas e indexadas.

Ele age como um tipo de “porteiro” para o site, direcionando o tráfego de bots de acordo com regras estipuladas.

Como criar um arquivo robots.txt?

Criar um arquivo robots.txt é bastante simples. Você só precisa de um editor de texto como o Bloco de Notas ou TextEdit e seguir a sintaxe específica para as instruções. Por exemplo:

User-agent: *
Disallow: /privado/

A instrução User-agent: * Disallow: /privado/ indica que todos os robôs de busca (representados por *) estão proibidos de acessar ou indexar o diretório /privado/ do site. Isso significa que o conteúdo dentro dessa pasta não será rastreado pelos mecanismos de busca, mantendo-o fora dos resultados de pesquisa.

Onde colocar o arquivo robots.txt?

O arquivo deve ser colocado na raiz do domínio do seu site. Por exemplo, se o seu site é www.exemplo.com, o arquivo deve estar disponível em www.exemplo.com/robots.txt.

Diagrama que representa uma estrutura de website, com Diretório Raiz, arquivo robots.txt e outros diretórios.

Como bloquear ou permitir bots?

Para bloquear todos os bots de rastrear qualquer parte do seu site, você usaria:

User-agent: *
Disallow: /

Para permitir o acesso completo, você usaria:

User-agent: *
Disallow:

Como desabilitar o bot da OpenAi (ChatGPT)?

Para impedir que o GPTBot acesse seu site, você pode adicionar o GPTBot ao arquivo robots.txt do seu site:

User-agent: GPTBot
Disallow: /

Para permitir que o GPTBot acesse apenas partes do seu site, você pode adicionar o token do GPTBot ao arquivo robots.txt do seu site da seguinte forma:

User-agent: GPTBot
Allow: /pasta-1/
Disallow: /pasta-2/

Sintaxe e Comandos

Os principais comandos são User-agent para especificar o bot e Disallow para especificar as páginas a serem bloqueadas. Você também pode usar Allow para permitir o acesso a páginas específicas.

Obs: O comando Allow não faz parte oficialmente das especificações do robots.txt, mas os principais mecanismos de busca o respeitam. No entanto, ele é redundante, pois tudo o que não é explicitamente bloqueado já está permitido para ser rastreado.

Aqui estão algumas das principais sintaxes e comandos que você pode usar em um arquivo robots.txt:

Comandos Básicos

User-agent: Especifica o robô da web ao qual as regras se aplicam.
- Exemplo: User-agent: Googlebot
Disallow: Impede que robôs acessem determinadas partes do site.
- Exemplo: Disallow: /privado/
Allow: Permite que robôs acessem determinadas partes do site, mesmo que uma regra Disallow mais ampla exista.
- Exemplo: Allow: /publico/

Sintaxes Básicas

Coringa (*): Representa qualquer sequência de caracteres.
- Exemplo: Disallow: /*.jpg$
Dólar ($): Indica o fim de uma URL.
- Exemplo: Disallow: /*.php$
Comentários (#): Qualquer coisa após o símbolo # em uma linha é um comentário.
- Exemplo: # Este é um comentário
Sitemap: Fornece a localização do arquivo XML do sitemap.
- Exemplo: Sitemap: http://www.exemplo.com/sitemap.xml

O robots.txt é obrigatório?

Ter um arquivo robots.txt não é obrigatório, mas é altamente recomendado para controlar o acesso dos bots e melhorar o SEO.

Impacto no SEO

Um arquivo robots.txt bem configurado pode melhorar o SEO ao evitar que os mecanismos de busca indexem conteúdo duplicado ou irrelevante.

Além disto, robots.txt pode ser um aliado para contornar e evitar problemas relacionados com crawl budget.

Isto será especialmente útil em sites muito grandes (aqueles com mais de um milhão de páginas únicas) e com conteúdo que muda com frequência moderada (uma vez por semana).

Ferramentas e Validadores

Existem várias ferramentas online, como o “Robots.txt Tester” do Google, que podem ajudá-lo a validar a sintaxe do seu arquivo.

Outros Exemplos e Modelos

Aqui estão alguns exemplos:

WordPress:

# Define as regras para todos os robôs de busca
User-Agent: *

# Não desabilita nenhum diretório ou arquivo, permitindo que todos sejam indexados
Disallow: 

# Especifica o local do arquivo sitemap para ajudar os robôs a encontrar todas as páginas
Sitemap: https://www.exemplo.com/sitemap_index.xml

Magento:

User-agent: *

# Estes comandos impedirão que os robôs indexem os diretórios do sistema Magento
Disallow: /app/
Disallow: /bin/
Disallow: /dev/
Disallow: /lib/
Disallow: /phpserver/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /setup/
Disallow: /update/
Disallow: /var/
Disallow: /vendor/

# Estes comandos impedirão que os robôs indexem arquivos do sistema presentes na raiz do Magento
Disallow: /composer.json
Disallow: /composer.lock
Disallow: /CONTRIBUTING.md
Disallow: /CONTRIBUTOR_LICENSE_AGREEMENT.html
Disallow: /COPYING.txt
Disallow: /Gruntfile.js
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /nginx.conf.sample
Disallow: /package.json
Disallow: /php.ini.sample
Disallow: /RELEASE_NOTES.txt

# Estes comandos impedirão que os robôs indexem URLs do sistema
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout

Segurança

É importante notar que o arquivo robots.txt não é uma medida de segurança. Informações sensíveis devem ser protegidas por outros métodos, como autenticação.

Conclusão

Em resumo, o arquivo robots.txt é uma ferramenta simples, mas poderosa, para gerenciar como os mecanismos de busca interagem com o seu site.

Ele permite que você especifique quais áreas do site devem ser acessíveis e quais devem ser mantidas fora do alcance.

Isso não apenas melhora a eficiência dos mecanismos de busca ao explorar seu site, mas também ajuda a manter informações que você não quer que sejam públicas fora do alcance dos bots.

Com um arquivo robots.txt bem configurado, você tem mais controle sobre a visibilidade do seu site na internet.

Publicado originalmente em 27/08/2023 | Última atualização em 29/09/2024