Crawl budget: entenda e otimize a exploração do seu site pelo Google

Por CaptainDNS
Publicado em 10 de fevereiro de 2026

Crawl budget: diagrama do crawl rate limit e do crawl demand

TL;DR

O crawl budget é o número de páginas que o Googlebot escolhe explorar no seu site em um determinado período.
Ele resulta de dois fatores: o crawl rate limit (capacidade do seu servidor) e o crawl demand (interesse do Google pelas suas páginas).
Em sites com mais de 10.000 páginas, um crawl budget mal otimizado atrasa a indexação de páginas importantes.
Páginas pesadas consomem mais budget: teste o peso das suas páginas com nosso Page Crawl Checker.

O Google explora bilhões de páginas todos os dias. Mas não todas as suas. O crawl budget é o número de páginas que o Googlebot escolhe explorar no seu site em um determinado intervalo de tempo. Não tem nada a ver com dinheiro.

O seu site tem menos de alguns milhares de páginas? Então o crawl budget provavelmente não é um problema. O Google tem recursos suficientes para explorar tudo. Porém, quando o seu site ultrapassa 10.000 páginas, ou quando a sua arquitetura gera milhares de URLs de filtragem e paginação, a gestão do crawl budget se torna uma alavanca SEO importante.

Este guia cobre três pontos: o que é o crawl budget, como verificá-lo no Google Search Console e 7 técnicas concretas para otimizá-lo. Também abordamos um fator frequentemente ignorado: o impacto do desempenho DNS na velocidade de rastreio.

O que é o crawl budget?

O crawl budget é um conceito definido pelo Google que combina dois fatores independentes: o crawl rate limit e o crawl demand.

Crawl rate limit: a capacidade do seu servidor

O crawl rate limit representa o número máximo de requisições simultâneas que o Googlebot pode enviar ao seu servidor sem sobrecarregá-lo. O Google ajusta esse limite automaticamente com base na responsividade do seu site.

Se o seu servidor responde rápido (tempo de resposta inferior a 200 ms), o Googlebot aumenta o ritmo. Se as respostas ficam mais lentas ou surgem erros 5xx, ele reduz a cadência para não agravar a situação.

Crawl demand: o interesse do Google pelas suas páginas

O crawl demand reflete a vontade do Google de rastrear suas páginas. Diversos fatores o influenciam:

A popularidade das suas URLs: páginas que recebem links externos ou que geram tráfego são rastreadas com mais frequência.
A atualização: páginas que mudam frequentemente (notícias, preços, estoque) são revisitadas com mais frequência do que páginas estáticas.
A presença no sitemap: URLs listadas no seu sitemap XML sinalizam ao Google que merecem ser exploradas.

A equação do crawl budget

O crawl budget efetivo do seu site é o mínimo entre o crawl rate limit e o crawl demand:

Crawl budget = min(crawl rate limit, crawl demand)

Na prática: mesmo que o seu servidor suporte 100 requisições por segundo, o Google não rastreará mais páginas do que julga necessário. E, inversamente, se o Google quer explorar 50.000 páginas mas o seu servidor suporta apenas 5 requisições por segundo, o rastreio será lento.

Diagrama do crawl budget: crawl rate limit e crawl demand

Por que o crawl budget é importante para o SEO?

Impacto na indexação

Uma página não rastreada é uma página não indexada. Se o Googlebot não tem tempo de explorar certas URLs do seu site, elas não aparecerão nos resultados de busca, mesmo que o conteúdo seja excelente.

O problema é particularmente visível em sites grandes. Páginas profundas, acessíveis após 4-5 cliques a partir da página inicial, são rastreadas com menor frequência. Se o seu crawl budget é limitado, essas páginas podem levar semanas, ou até meses, para serem indexadas.

Quando o crawl budget se torna um problema?

O Google é explícito: o crawl budget só é relevante para sites grandes. Veja as situações em que é preciso se preocupar:

Sites com mais de 10.000 URLs únicas: e-commerce, diretórios, portais de conteúdo.
Sites com navegação facetada: as combinações de filtros (tamanho, cor, preço, marca) geram milhares de URLs quase idênticas.
Sites com conteúdo duplicado: versões HTTP e HTTPS, www e sem www, ou parâmetros de URL que criam duplicatas.
Sites com erros técnicos: cadeias de redirecionamentos, erros 404 e páginas soft-404 desperdiçam budget sem trazer nenhum benefício.

Os sites mais afetados

Os sites de e-commerce são os primeiros afetados. Um catálogo de 50.000 produtos com 20 facetas de filtragem pode gerar milhões de URLs. Sem uma gestão rigorosa do robots.txt e das tags canonical, o Googlebot gasta seu tempo rastreando páginas de baixo valor em detrimento das fichas de produto estratégicas.

Sites de mídia com arquivos volumosos, fóruns e sites de classificados também são afetados.

Como verificar seu crawl budget?

Relatório "Estatísticas de rastreio" no Google Search Console

O Google Search Console oferece um relatório dedicado na seção Configurações > Estatísticas de rastreio. Esse relatório exibe os últimos 90 dias:

O número total de requisições de rastreio por dia.
O tempo de resposta médio do seu servidor.
A distribuição por tipo de resposta (200, 301, 404, 5xx).
O tamanho médio das páginas baixadas.

Um bom indicador: se o número de requisições de rastreio diminui enquanto você adiciona conteúdo, seu crawl budget provavelmente é insuficiente.

Análise dos logs do servidor

Os logs do seu servidor web (Apache, Nginx) registram cada visita do Googlebot. Ao analisá-los, você pode identificar:

Quais páginas são rastreadas com mais frequência (e quais nunca são).
Os padrões de rastreio (horários, frequência, profundidade).
Os erros retornados ao Googlebot.

Filtre as requisições cujo User-Agent contém "Googlebot" para isolar o tráfego do crawler.

URL Inspection Tool

A ferramenta de inspeção de URL no Google Search Console permite verificar o estado individual de uma página: data do último rastreio, status de indexação e eventuais problemas detectados.

Diagrama do relatório de estatísticas de rastreio no Google Search Console

7 técnicas para otimizar seu crawl budget

1. Corrigir links quebrados e cadeias de redirecionamentos

Cada link quebrado (404) e cada cadeia de redirecionamentos (301 para 301 para 301) desperdiça uma requisição de rastreio. O Googlebot segue o link, recebe um erro ou redirecionamento, e precisa recomeçar. Resultado: budget consumido sem nenhum retorno.

Use um crawler como Screaming Frog ou Sitebulb para detectar links quebrados e cadeias de redirecionamentos no seu site. Corrija os links para apontar diretamente ao destino final.

2. Otimizar o robots.txt

O arquivo robots.txt permite bloquear o acesso do Googlebot a seções desnecessárias do seu site. Os alvos clássicos:

Páginas de administração e back-office.
Páginas de resultados de busca interna.
Páginas de filtragem e ordenação (facetas).
Arquivos CSS/JS que não precisam ser rastreados individualmente.

# robots.txt - bloquear páginas de filtragem
User-agent: Googlebot
Disallow: /search?
Disallow: /filter/
Disallow: /sort/
Disallow: /admin/

Atenção: bloquear uma URL no robots.txt impede o rastreio, mas não a desindexação. Se uma página bloqueada recebe links externos, o Google ainda pode indexá-la (sem rastreá-la) com base nas âncoras dos links.

3. Limpar o sitemap XML

Seu sitemap XML deve conter apenas as URLs que você deseja ver indexadas. Remova:

URLs que retornam erros 404 ou redirecionamentos 301.
URLs bloqueadas pelo robots.txt.
URLs com tag noindex.
Páginas de baixa qualidade ou duplicatas.

Um sitemap limpo indica ao Google quais páginas merecem sua atenção. Se o seu sitemap contém 100.000 URLs das quais apenas 20.000 são realmente úteis, você dilui o sinal.

4. Eliminar conteúdo duplicado com canonical

Páginas duplicadas são um desperdício direto de crawl budget. O Googlebot rastreia cada URL separadamente, mesmo que o conteúdo seja idêntico.

Use a tag <link rel="canonical"> para indicar a versão preferida de uma página. Exemplos comuns:

Parâmetros de tracking (?utm_source=...).
Variantes de ordenação e paginação.
Versões HTTP/HTTPS ou www/sem www.

5. Reduzir o peso das páginas HTML

Páginas pesadas consomem mais largura de banda e tempo de download, o que desacelera o rastreio. Acima de 2 MB de HTML fonte, o Googlebot trunca o conteúdo.

As ações mais eficazes:

Externalizar o CSS e o JavaScript inline.
Remover imagens em base64 e SVGs inline.
Minificar o HTML.
Paginar listas longas.

6. Melhorar o tempo de resposta do servidor

Quanto mais rápido o seu servidor responde, mais o Googlebot aumenta o crawl rate limit. O objetivo: um tempo de resposta do servidor (TTFB) inferior a 200 ms.

As principais alavancas:

Cache do lado do servidor: Redis, Varnish ou um CDN para páginas estáticas.
Banco de dados: otimizar consultas lentas, adicionar índices.
Infraestrutura: uma hospedagem dimensionada para o tráfego esperado.

7. Evitar armadilhas de rastreio

As armadilhas de rastreio (crawl traps) são seções do seu site que geram um número quase infinito de URLs. O Googlebot pode se perder nelas e consumir todo o budget sem jamais alcançar suas páginas importantes.

Exemplos comuns:

Calendários infinitos: cada mês gera uma nova URL, sem limite no tempo.
Facetas combinadas: tamanho + cor + preço + marca = milhares de URLs.
Sessões e identificadores na URL: cada visitante gera URLs únicas.
Ordenação e paginação: página 1 ordenada por preço, página 1 ordenada por data, página 1 ordenada por popularidade = 3 URLs para o mesmo conteúdo.

O fator DNS: o impacto invisível no crawl budget

Seu robots.txt está limpo, sua sitemap é impecável, suas páginas são leves. Mesmo assim, o rastreio continua lento. Você verificou o desempenho DNS? Antes de cada requisição HTTP, o Googlebot precisa resolver o nome de domínio do seu site. Se essa resolução é lenta, cada requisição de rastreio começa com uma desvantagem.

Resolução DNS e Googlebot

Em cada sessão de rastreio, o Googlebot realiza uma resolução DNS para localizar o endereço IP do seu servidor. Se o seu servidor DNS leva 200 ms para responder em vez de 20 ms, isso adiciona 180 ms de latência a cada requisição.

Em uma sessão de rastreio de 1.000 páginas, essa diferença se traduz em 180 segundos (3 minutos) de tempo perdido apenas na resolução DNS. O Googlebot interpreta essa lentidão como sinal de sobrecarga e reduz o crawl rate limit.

TTL ideal para o rastreio

O TTL (Time To Live) dos seus registros DNS determina por quanto tempo o resolvedor DNS do Google mantém a resposta em cache. Um TTL muito curto (menos de 300 segundos) obriga a resolver o domínio com mais frequência. Um TTL entre 3.600 e 86.400 segundos (1 hora a 24 horas) é um bom equilíbrio entre reatividade e desempenho.

Como testar o desempenho do seu DNS

Verifique o tempo de resolução DNS do seu domínio com ferramentas como dig ou as ferramentas DNS do CaptainDNS. Um tempo de resolução inferior a 50 ms é excelente. Acima de 100 ms, há espaço para otimização (escolha do provedor DNS, configuração Anycast, TTL).

Plano de ação recomendado

Analise seu crawl budget: consulte o relatório "Estatísticas de rastreio" no Google Search Console. Anote o número de requisições por dia, o tempo de resposta médio e a distribuição dos códigos de resposta.
Teste o peso das suas páginas críticas: use o Page Crawl Checker nas suas páginas mais importantes. Identifique as que ultrapassam 500 KB de HTML fonte.
Aplique as 7 técnicas: corrija os links quebrados, limpe seu sitemap, elimine as duplicatas, reduza o peso das páginas e monitore o desempenho do seu DNS. Meça o impacto no Search Console após 2 a 4 semanas.

FAQ

O que é o crawl budget em SEO?

O crawl budget é o número de páginas que o Googlebot explora no seu site em um determinado intervalo de tempo. Ele resulta de dois fatores: o crawl rate limit (número máximo de requisições que o seu servidor pode absorver) e o crawl demand (interesse do Google pelas suas URLs). As páginas não rastreadas não podem ser indexadas.

O crawl budget é relevante para sites pequenos?

Não, para a grande maioria dos sites. O Google confirma que o crawl budget só é um fator limitante para sites com mais de 10.000 URLs únicas, ou para sites que geram muitas URLs por meio de navegação facetada, parâmetros de ordenação e paginação. Se o seu site tem menos de alguns milhares de páginas, o Googlebot não tem nenhuma dificuldade em explorar tudo.

Como verificar o crawl budget no Google Search Console?

Acesse o Google Search Console, seção Configurações, e clique em "Estatísticas de rastreio". Esse relatório exibe o número de requisições de rastreio por dia, o tempo de resposta médio, o tamanho das páginas baixadas e a distribuição dos códigos HTTP nos últimos 90 dias. Uma queda no número de requisições apesar da adição de conteúdo indica um problema de crawl budget.

Qual é a diferença entre crawl rate limit e crawl demand?

O crawl rate limit é a capacidade técnica: o número máximo de requisições que o Googlebot envia ao seu servidor sem sobrecarregá-lo. O crawl demand é o interesse do Google: quantas páginas ele efetivamente quer explorar com base na popularidade, atualização e presença no sitemap. O crawl budget efetivo é o mínimo entre os dois.

O robots.txt afeta o crawl budget?

Sim. As regras Disallow do robots.txt impedem o Googlebot de rastrear as URLs em questão, o que libera budget para as páginas importantes. Atenção: bloquear uma URL no robots.txt não impede sua indexação se ela recebe links externos. Para desindexar uma página, use a tag meta noindex (que exige que a página seja rastreável).

Os redirecionamentos consomem crawl budget?

Sim. Cada redirecionamento (301 ou 302) consome uma requisição de rastreio. O Googlebot segue o link inicial, recebe o redirecionamento e precisa fazer uma nova requisição para o destino. Cadeias de redirecionamentos (A para B para C para D) multiplicam o desperdício. Corrija os links para apontar diretamente à URL final.

Como o peso das páginas afeta o crawl budget?

Quanto mais pesada uma página em HTML, mais largura de banda e tempo de download ela consome. O Googlebot ajusta o crawl rate limit com base no tempo de resposta. Páginas leves (menos de 100 KB de HTML) permitem rastrear mais páginas por sessão. Acima de 2 MB de HTML fonte, o Googlebot trunca o conteúdo e o indexa apenas parcialmente.

Teste suas páginas agora: use nosso Page Crawl Checker para verificar o peso das suas páginas HTML e a conformidade com o limite de 2 MB do Googlebot.

Guias de rastreio e indexação relacionados

Limite de 2 MB do Googlebot: o que acontece quando suas páginas são pesadas demais: teste se suas páginas ultrapassam o limite de truncagem.
Peso mediano das páginas web 2025 (em breve)

Fontes

Google Search Central. Large site management and crawl budget: documentação oficial sobre o crawl budget.
Google Developers. Googlebot overview: funcionamento do Googlebot e limites de rastreio.
HTTP Archive. Web Almanac: estatísticas sobre o peso das páginas web.
web.dev. Optimize server response times (TTFB): boas práticas para reduzir o tempo de resposta do servidor.