Googlebot: como funciona o rastreamento do Google?

A missão do Google, de acordo com a declaração oficial da empresa, é “organizar as informações do mundo e torná-las universalmente acessíveis e úteis”.

Esta missão reflete o objetivo do Google de tornar a vasta quantidade de informações disponíveis na web facilmente acessíveis e úteis para todos, em qualquer lugar do mundo.

Para fazer isso, eles usam programas chamados “rastreadores” ou “spiders”, cujo trabalho é ‘viajar’ pela Internet, descobrindo e indexando novas páginas da web para serem incluídas nos resultados de pesquisa.

Neste texto, vamos explorar como esses rastreadores do Google funcionam, como eles interagem com os sites, e o papel que desempenham em determinar a visibilidade de um site nos resultados de pesquisa do Google.

Também discutiremos as melhores práticas para otimizar um site para o rastreamento do Google, e como você pode usar as ferramentas do Google para obter insights sobre como o Googlebot interage com um site.”

Índice

Como o Google faz o rastreamento de páginas?

Googlebot é o nome do “web crawler” ou “spider” do Google. Esse crawler é responsável por rastrear a web para encontrar novas páginas e atualizar as informações sobre páginas existentes para adicionar ao índice de pesquisa do Google.

Colocando de uma forma bem simplista, o crawler do Google funciona da seguinte forma:

Lista de URLs para rastrear: O Googlebot começa com uma lista de URLs de páginas da web gerada a partir de rastreamentos anteriores. Esta lista é continuamente atualizada com novas URLs descobertas a partir de sitemaps fornecidos por webmasters, bem como a partir de links encontrados em páginas da web.
Rastreamento: O Googlebot visita cada URL na lista. Quando chega a uma página da web, o bot lê a página e segue os links na página, adicionando quaisquer novas URLs que encontra à sua lista de páginas a serem rastreadas. Esse processo é repetido continuamente para descobrir novas páginas e manter a lista atualizada.
Respeitando as instruções de rastreamento: O Googlebot também verifica o arquivo “robots.txt” de um site para ver se o webmaster definiu quaisquer regras que bloqueiam o bot de rastrear certas partes do site. Além disso, as tags meta “noindex” e “nofollow” em páginas individuais podem instruir o bot a não indexar uma página específica ou a não seguir links em uma página específica, respectivamente.
Indexação: Depois que uma página é rastreada, ela é indexada, ou seja, adicionada ao índice do Google. Durante o processo de indexação, o Googlebot analisa o conteúdo da página, incluindo o texto, as imagens e os vídeos presentes, bem como o HTML e outros metadados. Ele usa essa informação para entender do que a página se trata, e para determinar para quais consultas de pesquisa a página poderia ser relevante.

Rastreadores comuns do Google

Segundo a documentação oficial do Google, existem vários rastreadores e coletores que executam ações nos web sites.

Cada um desses rastreadores tem um papel único no ecossistema do Google, ajudando o buscador a indexar e compreender diferentes tipos de conteúdo na web.

Confira os mais comuns:

Googlebot para smartphones: Rastreia páginas da web como se estivesse em um dispositivo móvel.
Googlebot para computadores: Rastreia páginas da web como se estivesse em um computador.
Googlebot Image: Usado para rastrear e indexar imagens para o Google Images e outros produtos que dependem de imagens.
Googlebot News: Usa o Googlebot para rastrear notícias, mas também respeita o token do user agent Googlebot-News.
Googlebot Video: Usado para rastrear e indexar vídeos para o Google e produtos que dependem de vídeos.
Google Favicon: Rastreia favicons (ícones de sites), mas pode ignorar as regras do robots.txt em solicitações iniciadas pelo usuário.
Google StoreBot: Rastreia tipos específicos de páginas, como páginas de detalhes do produto, do carrinho e de finalização de compra.
Google-InspectionTool: Este é o rastreador usado pelas ferramentas de teste da Pesquisa, como o teste de pesquisa aprimorada e a inspeção de URL no Search Console.
GoogleOther: Este termo parece referir-se a outros rastreadores menos comuns usados pelo Google para fins específicos.

Quais as melhores práticas para otimizar um site para o Googlebot?

Otimizar um site para o Googlebot é um processo contínuo que envolve várias etapas.

Aqui estão algumas das melhores práticas para garantir que um site seja facilmente rastreado e indexado pelo Googlebot:

Estrutura clara do site: Uma estrutura de site clara e lógica ajuda o Googlebot a entender o conteúdo. Isso inclui o uso de URLs claros e significativos, a criação de uma hierarquia de informações clara e a utilização de sitemaps XML para informar ao Googlebot sobre todas as páginas de um site.
Meta tags: Use meta tags para fornecer ao Googlebot informações sobre o conteúdo de cada página.
- Meta Robots Tag: A meta tag robots permite que você controle como um motor de busca rastreia e indexa uma página específica no site. Por exemplo, a diretiva “noindex” instrui os motores de busca a não indexar uma página, enquanto a diretiva “nofollow” diz a eles para não seguir os links em uma página. Uma nota importante é que essa tag precisa ser respeitada pelo rastreador para que seja eficaz, e o Googlebot geralmente respeita essas diretrizes.
- Canonical Tag: Embora tecnicamente não seja uma meta tag, a tag canônica ajuda a resolver problemas de conteúdo duplicado, indicando a URL canônica ou “preferida” se o conteúdo for disponibilizado através de múltiplas URLs.
Mobile-friendly: Certifique-se de que o site seja responsivo, ou seja, que ele seja otimizado para ser exibido corretamente em dispositivos móveis. O Google prioriza sites mobile-friendly na indexação e nos rankings de pesquisa.
Tempo de carregamento rápido: Sites que carregam rapidamente proporcionam uma melhor experiência ao usuário, e o Google leva isso em consideração em seus rankings de pesquisa. Portanto, otimize as imagens, minimize o uso de JavaScript e CSS, e considere o uso de AMP (Accelerated Mobile Pages) para melhorar a velocidade do site.
Usar o arquivo robots.txt corretamente: Use o arquivo robots.txt para controlar como o Googlebot interage com o site. Você pode usar este arquivo para impedir que o Googlebot rastreie partes do site que não são úteis para os usuários ou que são sensíveis.
Criar e manter um sitemap: Um sitemap ajuda o Googlebot a entender a estrutura do site e a encontrar novas páginas para rastrear. Certifique-se de manter o sitemap atualizado com todas as novas páginas que você adicionar ao site.

Como saber se o Googlebot acessou um site?

O Googlebot deixa rastros quando visita um site, e esses rastros podem ser identificados de várias maneiras:

Registros do servidor: Cada vez que o Googlebot rastreia uma página, isso é registrado nos arquivos de log do servidor do site. Esses arquivos de log contêm detalhes sobre cada solicitação feita ao servidor, incluindo o endereço IP da solicitação, o user agent (que identifica o software que fez a solicitação), a data e a hora da solicitação, e a URL solicitada.

User agent: O Googlebot identifica-se usando um user agent específico ao fazer solicitações para servidores web. Por exemplo, o user agent do Googlebot para desktop é “Googlebot/2.1” e para dispositivos móveis é “Googlebot Smartphone”. Portanto, pesquisando por esses user agents nos arquivos de log do servidor, você pode ver quais páginas foram rastreadas pelo Googlebot.

Google Search Console: O Google Search Console é uma ferramenta que permite que os proprietários de sites vejam como o Google vê o site. Ele inclui informações sobre quando e como o Googlebot rastreou o site, quais páginas foram indexadas, e se o Googlebot encontrou algum erro durante o rastreamento.

Publicado originalmente em 22/07/2023

Índice

Como o Google faz o rastreamento de páginas?

Rastreadores comuns do Google

Quais as melhores práticas para otimizar um site para o Googlebot?

Como saber se o Googlebot acessou um site?

Por David Breder