Page Crawl Checker - Crawl Googlebot

Por que analisar o crawl das suas páginas web?

Se o HTML da sua página ultrapassa 2 MB, o Googlebot o trunca silenciosamente. Sem erro no Search Console, sem aviso: o conteúdo no final da página desaparece do índice do Google (fonte: documentação Google). E isso é só parte do problema: robots.txt mal configurado, sub-recursos excessivos, redirecionamentos JavaScript invisíveis e compressão inadequada consomem seu crawl budget sem que você perceba.

Cinco razões para analisar o crawl das suas páginas:

Evitar o truncamento - Páginas com HTML inline pesado (SVG, CSS, JSON-LD volumoso) frequentemente ultrapassam o limite sem que você perceba
Verificar o acesso do Googlebot - Um robots.txt mal configurado pode bloquear o crawl de páginas importantes
Otimizar o crawl budget - Páginas mais leves com menos sub-recursos = mais páginas rastreadas pelo Google no tempo disponível
Detectar redirecionamentos invisíveis - Os meta refresh e redirecionamentos JavaScript nem sempre são seguidos pelo Googlebot
Comparar mobile vs desktop - O mobile-first indexing significa que a versão smartphone é a que conta para a indexação

Como usar o page crawl checker em 3 passos

Passo 1: Inserir a URL da página

Digite a URL completa da página a analisar no campo acima. A ferramenta aceita qualquer URL pública acessível, incluindo arquivos PDF:

https://www.captaindns.com/pt

Teste suas páginas mais longas primeiro: páginas de categoria, páginas de produto com muitas variantes, artigos de blog com muitas imagens inline.

Passo 2: Escolher o User-Agent e as opções

Selecione o User-Agent para simular o crawl:

Googlebot smartphone (recomendado): simula o crawl mobile-first, aquele que o Google usa para a indexação principal
Googlebot desktop: útil para comparar a versão desktop se seu site serve um HTML diferente
Modo comparação: teste os dois User-Agents simultaneamente para detectar diferenças de conteúdo, tamanho e headers

Nas opções avançadas, você pode adicionar headers HTTP personalizados. Útil para testar um site atrás de um CDN, um proxy reverso, ou para enviar um cookie de autenticação específico.

Passo 3: Consultar o relatório completo

O relatório exibe:

KPI no topo da página: tamanho, score de crawl budget, número de sub-recursos, tempo de resposta, redirecionamentos client-side
Barra de progresso: proporção visual em relação ao limite de 2 MB (ou 64 MB para PDFs)
robots.txt: verificação de que o Googlebot está autorizado a rastrear a URL, crawl-delay e sitemaps detectados
Headers HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag e seus headers personalizados enviados
Análise HTML: meta tags, headings, links, dados estruturados, recursos inline
Sub-recursos: inventário completo dos scripts, CSS, imagens, fontes, iframes com tamanho e status
Crawl budget: score de 0 a 100 com detalhamento dos fatores e impacto individual
Redirecionamentos client-side: meta refresh e JavaScript detectados no HTML
Impressão digital do conteúdo: hash SHA-256 para detectar mudanças entre análises
Simulação de truncamento: se aplicável, visualize exatamente onde o Googlebot cortaria
Recomendações: ações concretas priorizadas por impacto

O que é o limite de 2 MB do Googlebot?

O Google documenta um limite de tamanho para o crawl: o Googlebot pode baixar e indexar os primeiros 2.097.152 bytes (2 MB) do código-fonte HTML de uma página. Além disso, o conteúdo é truncado. Para arquivos PDF, o limite é de 64 MB.

O que isso significa na prática:

Tipo de conteúdo	Limite	Consequência se ultrapassar
HTML	2 MB (2.097.152 bytes)	Truncamento: conteúdo no final da página ignorado
PDF	64 MB	Truncamento do conteúdo textual extraído

Atenção: o limite de HTML se aplica ao conteúdo descomprimido. A compressão gzip/brotli não muda nada: um HTML de 3 MB comprimido em trânsito continuará sendo truncado a 2 MB após a descompressão.

Páginas em risco:

Páginas de e-commerce com centenas de produtos listados em HTML
Landing pages com SVG inline ou CSS embutido volumoso
Páginas com JSON-LD estruturado muito detalhado (ex: FAQ com mais de 50 perguntas)
Páginas geradas no servidor com JavaScript inline abundante

O que a ferramenta analisa exatamente?

Análise de tamanho

Elemento	Descrição
Tamanho bruto	Peso exato do HTML retornado pelo servidor, em bytes
Tamanho descomprimido	Tamanho após decodificação gzip/brotli (o que conta para o Googlebot)
Proporção do limite	Porcentagem do limite consumida (2 MB para HTML, 64 MB para PDF)
Tipo de conteúdo	Detecção automática HTML, PDF ou outro com badge visual

Verificação do robots.txt

Elemento	O que a ferramenta verifica
Acesso do Googlebot	A URL testada é autorizada ou bloqueada pelo robots.txt?
Agente correspondente	Qual regra se aplica (Googlebot, *, etc.)
Crawl-delay	Intervalo imposto entre as requisições de crawl
Sitemaps	Arquivos sitemap declarados no robots.txt

Headers HTTP

Header	Por que é importante
Content-Type	Confirma que o servidor retorna HTML (ou um PDF)
Content-Encoding	Indica se a compressão está ativa (gzip, br)
X-Robots-Tag	Detecta um possível noindex/nofollow no nível HTTP
Cache-Control	Configuração de cache que impacta a frequência de crawl
Headers personalizados	Seus headers enviados são exibidos para confirmação

Análise HTML

Elemento	O que a ferramenta verifica
Meta tags	Presença e conteúdo de title, description, robots, canonical
Estrutura	Hierarquia dos headings (H1-H6) com posição em bytes
Links	Número de links internos, externos e nofollow detectados
Dados estruturados	JSON-LD detectado com tamanho e tipos identificados
Recursos inline	Scripts, estilos, SVG e data URIs embutidos no HTML

Sub-recursos

Elemento	O que a ferramenta verifica
Scripts	Arquivos JavaScript externos carregados pela página
CSS	Folhas de estilo externas
Imagens	Imagens referenciadas no HTML
Fontes	Web fonts carregadas
Iframes	Conteúdos de terceiros embutidos
Recursos de terceiros	Sub-recursos carregados de outros domínios
Erros de carregamento	Recursos retornando erro HTTP (404, 500, etc.)

Score de crawl budget

Elemento	O que a ferramenta avalia
Score global	Nota de 0 a 100, ponderada pela importância de cada fator
Tamanho da página	Impacto do peso do HTML no budget de crawl
Número de sub-recursos	Cada requisição consome budget
Recursos de terceiros	Domínios externos adicionam latência
Tempo de resposta	Uma resposta lenta reduz o número de páginas rastreadas
Compressão	A ausência de compressão desperdiça largura de banda

Redirecionamentos client-side

Elemento	O que a ferramenta detecta
Meta refresh	Tags `<meta http-equiv="refresh">` com URL e intervalo
JavaScript	Patterns `window.location`, `document.location`, `location.href`
Posição no HTML	Localização em bytes do redirecionamento detectado

Impressão digital do conteúdo

Elemento	Descrição
Hash SHA-256	Impressão digital única do conteúdo da página
Detecção de mudanças	Compare o hash entre duas análises para saber se o conteúdo mudou
Comparação mobile/desktop	Se as duas versões têm o mesmo hash, o conteúdo é idêntico

Comparação mobile vs desktop

Elemento	O que a ferramenta compara
Tamanho	Diferença de peso do HTML entre as duas versões
Headers	Diferenças de Content-Type, compressão, cache, X-Robots-Tag
Meta tags	Title, description, canonical, robots diferentes?
Estrutura	Número de headings, links, dados estruturados
Impressão digital	Mesmo hash = conteúdo idêntico, hash diferente = conteúdo distinto
Veredito	Síntese: idêntico, diferenças menores ou críticas

Insira sua URL acima para obter a análise completa da sua página.

Casos de uso reais

Caso 1: Página de e-commerce com milhares de produtos

Sintoma: Sua página de categoria lista 500 produtos em HTML. O final da página (paginação, FAQ, links para subcategorias) não aparece nos resultados do Google.

Diagnóstico com a ferramenta: A página tem 3,2 MB de HTML. O Googlebot trunca em 2 MB, perdendo os 200 últimos produtos, a FAQ e todos os links de navegação do rodapé.

Ação: Migrar para paginação com carregamento dinâmico (lazy load), limitar a listagem inicial a 50 produtos, mover a FAQ para o topo da página.

Caso 2: Score de crawl budget baixo por causa dos sub-recursos

Sintoma: O Google rastreia poucas páginas do seu site, apesar de o conteúdo ser atualizado regularmente. Suas novas páginas levam semanas para aparecer no índice.

Diagnóstico com a ferramenta: Cada página carrega 85 sub-recursos, dos quais 40 scripts de terceiros (analytics, widgets, testes A/B). O score de crawl budget é 35/100. Os recursos de terceiros representam 60% das requisições.

Ação: Carregar os scripts de terceiros com defer/async, remover scripts não utilizados, agrupar arquivos CSS e JS, usar lazy loading para imagens abaixo da dobra.

Caso 3: Redirecionamento JavaScript invisível para o Googlebot

Sintoma: Sua página redireciona corretamente os usuários para a nova URL, mas a página antiga continua indexada no Google e a nova não aparece.

Diagnóstico com a ferramenta: A ferramenta detecta um window.location.href no HTML. É um redirecionamento JavaScript que o Googlebot não segue sistematicamente. Nenhum redirecionamento HTTP (301/302) está configurado.

Ação: Substituir o redirecionamento JavaScript por um redirecionamento HTTP 301 no servidor. Se uma transição for necessária, adicionar uma tag <link rel="canonical"> apontando para a nova URL.

Caso 4: robots.txt bloqueia uma seção importante

Sintoma: Suas páginas /pt/blog/ não são mais indexadas desde a atualização do seu robots.txt. Nenhum erro visível no Search Console.

Diagnóstico com a ferramenta: A análise do robots.txt mostra "URL bloqueada" com a regra Disallow: /pt/ que bloqueia todo o conteúdo em português. O robots.txt visava bloquear /pt/admin/, mas a regra é ampla demais.

Ação: Corrigir o robots.txt substituindo Disallow: /pt/ por Disallow: /pt/admin/. Verificar com a ferramenta que as páginas importantes estão autorizadas.

Caso 5: Conteúdo diferente entre mobile e desktop

Sintoma: Seu ranqueamento no Google cai, embora o conteúdo desktop seja completo e bem otimizado.

Diagnóstico com a ferramenta: O modo comparação revela que a versão smartphone serve um HTML mais leve: a FAQ, as avaliações de clientes e 3 seções de conteúdo estão ausentes. As impressões digitais SHA-256 são diferentes. O Google indexa a versão mobile, que está incompleta.

Ação: Garantir que a versão mobile contenha o mesmo conteúdo SEO que a versão desktop. Usar design responsivo em vez de conteúdo condicional no servidor.

Caso 6: Migração com perda de compressão

Sintoma: Após uma migração de servidor, suas páginas carregam mais lentamente e o Google rastreia menos páginas.

Diagnóstico com a ferramenta: O header Content-Encoding está ausente. O servidor não comprime mais o HTML. O score de crawl budget cai de 78/100 para 52/100.

Ação: Reativar a compressão gzip/brotli no novo servidor. Verificar a configuração do nginx/Apache.

Teste suas páginas com a ferramenta acima para identificar os problemas específicos do seu site.

❓ FAQ - Perguntas frequentes

P: Qual é o peso médio de uma página web?

R: Em 2025, o peso mediano de uma página web é de aproximadamente 2,5 MB (todos os tipos de recursos incluídos). Porém, o HTML sozinho pesa geralmente entre 50 KB e 500 KB. É o tamanho do HTML que conta para o limite de crawl do Googlebot, não o peso total incluindo imagens, CSS e JavaScript.

P: O que acontece quando uma página ultrapassa 2 MB?

R: O Googlebot trunca o HTML além de 2.097.152 bytes. Todo o conteúdo após esse ponto é ignorado para indexação. Na prática: links internos, FAQ estruturada, texto SEO no final da página não são mais considerados para o ranqueamento nos resultados de busca.

P: O que é o crawl budget?

R: O crawl budget é o número de páginas que o Googlebot pode rastrear no seu site em um período determinado. Páginas pesadas com muitos sub-recursos consomem mais recursos do servidor e da rede, reduzindo o número total de páginas rastreadas. Nossa ferramenta calcula um score de 0 a 100 para avaliar a eficiência de cada página.

P: Por que os sub-recursos impactam o crawl?

R: Cada sub-recurso (script, CSS, imagem, fonte) exige uma requisição HTTP adicional. O Googlebot tem uma capacidade de crawl limitada por domínio. Uma página carregando mais de 80 sub-recursos consome muito mais budget do que uma página carregando 20. Os recursos de terceiros adicionam latência e dependências externas.

P: O que é um redirecionamento client-side?

R: É um redirecionamento feito pelo navegador via tag meta refresh ou JavaScript (window.location). Diferente dos redirecionamentos HTTP (301, 302), o Googlebot nem sempre os segue. Se o seu único redirecionamento é client-side, a página de destino pode nunca ser indexada.

P: A ferramenta verifica o arquivo robots.txt?

R: Sim. A ferramenta recupera automaticamente o robots.txt do domínio e verifica se o Googlebot está autorizado a rastrear a URL testada. Ela também detecta o crawl-delay e os sitemaps declarados. Se o robots.txt bloqueia a URL, um aviso é exibido, mas a análise da página continua para que você possa ver o conteúdo mesmo assim.

P: A ferramenta funciona com arquivos PDF?

R: Sim. A ferramenta detecta automaticamente arquivos PDF e adapta o limite de tamanho: 64 MB em vez de 2 MB para o HTML. Um badge PDF é exibido no relatório e a análise HTML é desativada (não aplicável a PDFs).

P: Para que serve a impressão digital do conteúdo (hash)?

R: A ferramenta gera um hash SHA-256 do conteúdo da página. Essa impressão digital permite detectar se o conteúdo mudou entre duas análises, ou se as versões mobile e desktop servem conteúdo idêntico. Útil para monitorar modificações não intencionais após um deploy.

P: Por que comparar as versões mobile e desktop?

R: O Google usa o mobile-first indexing desde 2019: é a versão smartphone que é indexada prioritariamente. Se sua versão mobile serve um conteúdo diferente (menos texto, FAQ ausente, links faltando), seu ranqueamento sofre. O modo comparação detecta essas diferenças e as classifica por severidade.

P: Por que escolher Googlebot smartphone em vez de desktop?

R: O Google usa o mobile-first indexing desde 2019: é a versão smartphone da sua página que é indexada prioritariamente. Teste com o User-Agent smartphone para ver exatamente o que o Google indexa. O modo comparação permite verificar que as duas versões são consistentes.

P: Como reduzir o peso de uma página web?

R: As ações mais eficazes:

Remover CSS/JS inline desnecessário - Mover para arquivos externos
Ativar a compressão - gzip ou brotli no servidor
Minificar o HTML - Remover espaços e comentários
Externalizar os SVGs - Substituir SVGs inline por tags img
Lazy loading - Carregar conteúdo volumoso sob demanda

P: A compressão gzip/brotli conta no limite de 2 MB?

R: Não. O limite de 2 MB se aplica ao HTML descomprimido. Um HTML de 3 MB comprimido para 500 KB durante a transferência de rede será truncado a 2 MB assim que descomprimido pelo Googlebot. A compressão melhora a velocidade de transferência, mas não contorna o limite de tamanho.

P: Para que servem os headers HTTP personalizados?

R: Os headers personalizados permitem testar configurações específicas: enviar um cookie para acessar um site protegido, simular um header Accept-Language específico, ou reproduzir as condições de um CDN. A ferramenta exibe os headers enviados no relatório para confirmação.

Ferramentas complementares

Ferramenta	Utilidade
Pesquisa DNS	Verificar os registros DNS do seu domínio
Verificador de propagação DNS	Confirmar que suas alterações DNS estão propagadas globalmente
Auditoria de entregabilidade de email	Analisar MX, SPF, DKIM e DMARC do seu domínio
Verificador SPF	Analisar e validar seu registro SPF
Hash Generator	Calcular impressões SHA-256 para comparar o conteúdo das páginas
Redirecionamento de domínio	Substituir redirecionamentos JavaScript por 301/302 HTTPS adequados
Verificador de headers HTTP	Auditar os security headers (CSP, HSTS, X-Frame-Options) com nota de A a F
Teste HSTS	Verificar o cabeçalho Strict-Transport-Security e a preload list do Chrome

Recursos úteis

Google - Documentação sobre limites de crawl (documentação oficial do Googlebot)
Google - Mobile-first indexing (guia do mobile-first indexing)
Google - Crawl budget management (gestão do crawl budget para sites grandes)
HTTP Archive - State of the Web (estatísticas sobre o peso das páginas web)
Web.dev - Optimize Largest Contentful Paint (otimização de performance web)

Analisador de crawl de página web

Diagnóstico completo do crawl Googlebot em poucos segundos

Análise de tamanho e truncamento

Score de crawl budget

Inventário de sub-recursos

Detecção de redirecionamentos client-side

Comparação mobile vs desktop

Por que analisar o crawl das suas páginas web?

Como usar o page crawl checker em 3 passos

Passo 1: Inserir a URL da página

Passo 2: Escolher o User-Agent e as opções

Passo 3: Consultar o relatório completo

O que é o limite de 2 MB do Googlebot?

O que a ferramenta analisa exatamente?

Análise de tamanho

Verificação do robots.txt

Headers HTTP

Análise HTML

Sub-recursos

Score de crawl budget

Redirecionamentos client-side

Impressão digital do conteúdo

Comparação mobile vs desktop

Casos de uso reais

Caso 1: Página de e-commerce com milhares de produtos

Caso 2: Score de crawl budget baixo por causa dos sub-recursos

Caso 3: Redirecionamento JavaScript invisível para o Googlebot

Caso 4: robots.txt bloqueia uma seção importante

Caso 5: Conteúdo diferente entre mobile e desktop

Caso 6: Migração com perda de compressão

❓ FAQ - Perguntas frequentes

Ferramentas complementares

Recursos úteis