A missão do Google, de acordo com a declaração oficial da empresa, é “organizar as informações do mundo e torná-las universalmente acessíveis e úteis”.
Esta missão reflete o objetivo do Google de tornar a vasta quantidade de informações disponíveis na web facilmente acessíveis e úteis para todos, em qualquer lugar do mundo.
Para fazer isso, eles usam programas chamados “rastreadores” ou “spiders”, cujo trabalho é ‘viajar’ pela Internet, descobrindo e indexando novas páginas da web para serem incluídas nos resultados de pesquisa.
Neste texto, vamos explorar como esses rastreadores do Google funcionam, como eles interagem com os sites, e o papel que desempenham em determinar a visibilidade de um site nos resultados de pesquisa do Google.
Também discutiremos as melhores práticas para otimizar um site para o rastreamento do Google, e como você pode usar as ferramentas do Google para obter insights sobre como o Googlebot interage com um site.”
Índice
Como o Google faz o rastreamento de páginas?
Googlebot é o nome do “web crawler” ou “spider” do Google. Esse crawler é responsável por rastrear a web para encontrar novas páginas e atualizar as informações sobre páginas existentes para adicionar ao índice de pesquisa do Google.
Colocando de uma forma bem simplista, o crawler do Google funciona da seguinte forma:
- Lista de URLs para rastrear: O Googlebot começa com uma lista de URLs de páginas da web gerada a partir de rastreamentos anteriores. Esta lista é continuamente atualizada com novas URLs descobertas a partir de sitemaps fornecidos por webmasters, bem como a partir de links encontrados em páginas da web.
- Rastreamento: O Googlebot visita cada URL na lista. Quando chega a uma página da web, o bot lê a página e segue os links na página, adicionando quaisquer novas URLs que encontra à sua lista de páginas a serem rastreadas. Esse processo é repetido continuamente para descobrir novas páginas e manter a lista atualizada.
- Respeitando as instruções de rastreamento: O Googlebot também verifica o arquivo “robots.txt” de um site para ver se o webmaster definiu quaisquer regras que bloqueiam o bot de rastrear certas partes do site. Além disso, as tags meta “noindex” e “nofollow” em páginas individuais podem instruir o bot a não indexar uma página específica ou a não seguir links em uma página específica, respectivamente.
- Indexação: Depois que uma página é rastreada, ela é indexada, ou seja, adicionada ao índice do Google. Durante o processo de indexação, o Googlebot analisa o conteúdo da página, incluindo o texto, as imagens e os vídeos presentes, bem como o HTML e outros metadados. Ele usa essa informação para entender do que a página se trata, e para determinar para quais consultas de pesquisa a página poderia ser relevante.
Rastreadores comuns do Google
Segundo a documentação oficial do Google, existem vários rastreadores e coletores que executam ações nos web sites.
Cada um desses rastreadores tem um papel único no ecossistema do Google, ajudando o buscador a indexar e compreender diferentes tipos de conteúdo na web.
Confira os mais comuns:
- Googlebot para smartphones: Rastreia páginas da web como se estivesse em um dispositivo móvel.
- Googlebot para computadores: Rastreia páginas da web como se estivesse em um computador.
- Googlebot Image: Usado para rastrear e indexar imagens para o Google Images e outros produtos que dependem de imagens.
- Googlebot News: Usa o Googlebot para rastrear notícias, mas também respeita o token do user agent Googlebot-News.
- Googlebot Video: Usado para rastrear e indexar vídeos para o Google e produtos que dependem de vídeos.
- Google Favicon: Rastreia favicons (ícones de sites), mas pode ignorar as regras do robots.txt em solicitações iniciadas pelo usuário.
- Google StoreBot: Rastreia tipos específicos de páginas, como páginas de detalhes do produto, do carrinho e de finalização de compra.
- Google-InspectionTool: Este é o rastreador usado pelas ferramentas de teste da Pesquisa, como o teste de pesquisa aprimorada e a inspeção de URL no Search Console.
- GoogleOther: Este termo parece referir-se a outros rastreadores menos comuns usados pelo Google para fins específicos.
Quais as melhores práticas para otimizar um site para o Googlebot?
Otimizar um site para o Googlebot é um processo contínuo que envolve várias etapas.
Aqui estão algumas das melhores práticas para garantir que um site seja facilmente rastreado e indexado pelo Googlebot:
- Estrutura clara do site: Uma estrutura de site clara e lógica ajuda o Googlebot a entender o conteúdo. Isso inclui o uso de URLs claros e significativos, a criação de uma hierarquia de informações clara e a utilização de sitemaps XML para informar ao Googlebot sobre todas as páginas de um site.
- Meta tags: Use meta tags para fornecer ao Googlebot informações sobre o conteúdo de cada página.
- Meta Robots Tag: A meta tag robots permite que você controle como um motor de busca rastreia e indexa uma página específica no site. Por exemplo, a diretiva “noindex” instrui os motores de busca a não indexar uma página, enquanto a diretiva “nofollow” diz a eles para não seguir os links em uma página. Uma nota importante é que essa tag precisa ser respeitada pelo rastreador para que seja eficaz, e o Googlebot geralmente respeita essas diretrizes.
- Canonical Tag: Embora tecnicamente não seja uma meta tag, a tag canônica ajuda a resolver problemas de conteúdo duplicado, indicando a URL canônica ou “preferida” se o conteúdo for disponibilizado através de múltiplas URLs.
- Mobile-friendly: Certifique-se de que o site seja responsivo, ou seja, que ele seja otimizado para ser exibido corretamente em dispositivos móveis. O Google prioriza sites mobile-friendly na indexação e nos rankings de pesquisa.
- Tempo de carregamento rápido: Sites que carregam rapidamente proporcionam uma melhor experiência ao usuário, e o Google leva isso em consideração em seus rankings de pesquisa. Portanto, otimize as imagens, minimize o uso de JavaScript e CSS, e considere o uso de AMP (Accelerated Mobile Pages) para melhorar a velocidade do site.
- Usar o arquivo robots.txt corretamente: Use o arquivo robots.txt para controlar como o Googlebot interage com o site. Você pode usar este arquivo para impedir que o Googlebot rastreie partes do site que não são úteis para os usuários ou que são sensíveis.
- Criar e manter um sitemap: Um sitemap ajuda o Googlebot a entender a estrutura do site e a encontrar novas páginas para rastrear. Certifique-se de manter o sitemap atualizado com todas as novas páginas que você adicionar ao site.
Como saber se o Googlebot acessou um site?
O Googlebot deixa rastros quando visita um site, e esses rastros podem ser identificados de várias maneiras:
Registros do servidor: Cada vez que o Googlebot rastreia uma página, isso é registrado nos arquivos de log do servidor do site. Esses arquivos de log contêm detalhes sobre cada solicitação feita ao servidor, incluindo o endereço IP da solicitação, o user agent (que identifica o software que fez a solicitação), a data e a hora da solicitação, e a URL solicitada.
User agent: O Googlebot identifica-se usando um user agent específico ao fazer solicitações para servidores web. Por exemplo, o user agent do Googlebot para desktop é “Googlebot/2.1” e para dispositivos móveis é “Googlebot Smartphone”. Portanto, pesquisando por esses user agents nos arquivos de log do servidor, você pode ver quais páginas foram rastreadas pelo Googlebot.
Google Search Console: O Google Search Console é uma ferramenta que permite que os proprietários de sites vejam como o Google vê o site. Ele inclui informações sobre quando e como o Googlebot rastreou o site, quais páginas foram indexadas, e se o Googlebot encontrou algum erro durante o rastreamento.
Publicado originalmente em 22/07/2023