Ir para o conteudo principal

Analisador de crawl de página web

Diagnóstico completo do crawl Googlebot em poucos segundos

Sua página está sendo rastreada corretamente pelo Google? Meça o peso do HTML, verifique robots.txt, analise os sub-recursos e estime seu score de crawl budget. Detecte redirecionamentos meta refresh, compare mobile vs desktop e gere uma impressão digital SHA-256 do conteúdo. Diagnóstico gratuito, resultados em poucos segundos.

Envie headers personalizados com a solicitação de rastreamento. User-Agent, Host e headers de transferência não são permitidos (máx. 10 headers, 1 KB por valor).

Análise de tamanho e truncamento

Meça o peso exato do HTML descomprimido. Visualize a proporção em relação ao limite de 2 MB (HTML) ou 64 MB (PDF) com uma barra de progresso.

Score de crawl budget

Obtenha um score de 0 a 100 avaliando a eficiência da sua página para o crawl. Identifique os fatores que consomem seu budget desnecessariamente.

Inventário de sub-recursos

Liste todos os scripts, CSS, imagens, fontes e iframes carregados pela página. Identifique recursos de terceiros e erros de carregamento.

Detecção de redirecionamentos client-side

Identifique redirecionamentos meta refresh e JavaScript invisíveis para o Googlebot. Esses redirecionamentos client-side podem bloquear a indexação.

Comparação mobile vs desktop

Compare as versões smartphone e desktop da sua página. Detecte diferenças de tamanho, conteúdo e headers entre as duas versões.

Por que analisar o crawl das suas páginas web?

Se o HTML da sua página ultrapassa 2 MB, o Googlebot o trunca silenciosamente. Sem erro no Search Console, sem aviso: o conteúdo no final da página desaparece do índice do Google (fonte: documentação Google). E isso é só parte do problema: robots.txt mal configurado, sub-recursos excessivos, redirecionamentos JavaScript invisíveis e compressão inadequada consomem seu crawl budget sem que você perceba.

Cinco razões para analisar o crawl das suas páginas:

  • Evitar o truncamento - Páginas com HTML inline pesado (SVG, CSS, JSON-LD volumoso) frequentemente ultrapassam o limite sem que você perceba
  • Verificar o acesso do Googlebot - Um robots.txt mal configurado pode bloquear o crawl de páginas importantes
  • Otimizar o crawl budget - Páginas mais leves com menos sub-recursos = mais páginas rastreadas pelo Google no tempo disponível
  • Detectar redirecionamentos invisíveis - Os meta refresh e redirecionamentos JavaScript nem sempre são seguidos pelo Googlebot
  • Comparar mobile vs desktop - O mobile-first indexing significa que a versão smartphone é a que conta para a indexação

Como usar o page crawl checker em 3 passos

Passo 1: Inserir a URL da página

Digite a URL completa da página a analisar no campo acima. A ferramenta aceita qualquer URL pública acessível, incluindo arquivos PDF:

https://www.captaindns.com/pt

Teste suas páginas mais longas primeiro: páginas de categoria, páginas de produto com muitas variantes, artigos de blog com muitas imagens inline.

Passo 2: Escolher o User-Agent e as opções

Selecione o User-Agent para simular o crawl:

  • Googlebot smartphone (recomendado): simula o crawl mobile-first, aquele que o Google usa para a indexação principal
  • Googlebot desktop: útil para comparar a versão desktop se seu site serve um HTML diferente
  • Modo comparação: teste os dois User-Agents simultaneamente para detectar diferenças de conteúdo, tamanho e headers

Nas opções avançadas, você pode adicionar headers HTTP personalizados. Útil para testar um site atrás de um CDN, um proxy reverso, ou para enviar um cookie de autenticação específico.

Passo 3: Consultar o relatório completo

O relatório exibe:

  • KPI no topo da página: tamanho, score de crawl budget, número de sub-recursos, tempo de resposta, redirecionamentos client-side
  • Barra de progresso: proporção visual em relação ao limite de 2 MB (ou 64 MB para PDFs)
  • robots.txt: verificação de que o Googlebot está autorizado a rastrear a URL, crawl-delay e sitemaps detectados
  • Headers HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag e seus headers personalizados enviados
  • Análise HTML: meta tags, headings, links, dados estruturados, recursos inline
  • Sub-recursos: inventário completo dos scripts, CSS, imagens, fontes, iframes com tamanho e status
  • Crawl budget: score de 0 a 100 com detalhamento dos fatores e impacto individual
  • Redirecionamentos client-side: meta refresh e JavaScript detectados no HTML
  • Impressão digital do conteúdo: hash SHA-256 para detectar mudanças entre análises
  • Simulação de truncamento: se aplicável, visualize exatamente onde o Googlebot cortaria
  • Recomendações: ações concretas priorizadas por impacto

O que é o limite de 2 MB do Googlebot?

O Google documenta um limite de tamanho para o crawl: o Googlebot pode baixar e indexar os primeiros 2.097.152 bytes (2 MB) do código-fonte HTML de uma página. Além disso, o conteúdo é truncado. Para arquivos PDF, o limite é de 64 MB.

O que isso significa na prática:

Tipo de conteúdoLimiteConsequência se ultrapassar
HTML2 MB (2.097.152 bytes)Truncamento: conteúdo no final da página ignorado
PDF64 MBTruncamento do conteúdo textual extraído

Atenção: o limite de HTML se aplica ao conteúdo descomprimido. A compressão gzip/brotli não muda nada: um HTML de 3 MB comprimido em trânsito continuará sendo truncado a 2 MB após a descompressão.

Páginas em risco:

  • Páginas de e-commerce com centenas de produtos listados em HTML
  • Landing pages com SVG inline ou CSS embutido volumoso
  • Páginas com JSON-LD estruturado muito detalhado (ex: FAQ com mais de 50 perguntas)
  • Páginas geradas no servidor com JavaScript inline abundante

O que a ferramenta analisa exatamente?

Análise de tamanho

ElementoDescrição
Tamanho brutoPeso exato do HTML retornado pelo servidor, em bytes
Tamanho descomprimidoTamanho após decodificação gzip/brotli (o que conta para o Googlebot)
Proporção do limitePorcentagem do limite consumida (2 MB para HTML, 64 MB para PDF)
Tipo de conteúdoDetecção automática HTML, PDF ou outro com badge visual

Verificação do robots.txt

ElementoO que a ferramenta verifica
Acesso do GooglebotA URL testada é autorizada ou bloqueada pelo robots.txt?
Agente correspondenteQual regra se aplica (Googlebot, *, etc.)
Crawl-delayIntervalo imposto entre as requisições de crawl
SitemapsArquivos sitemap declarados no robots.txt

Headers HTTP

HeaderPor que é importante
Content-TypeConfirma que o servidor retorna HTML (ou um PDF)
Content-EncodingIndica se a compressão está ativa (gzip, br)
X-Robots-TagDetecta um possível noindex/nofollow no nível HTTP
Cache-ControlConfiguração de cache que impacta a frequência de crawl
Headers personalizadosSeus headers enviados são exibidos para confirmação

Análise HTML

ElementoO que a ferramenta verifica
Meta tagsPresença e conteúdo de title, description, robots, canonical
EstruturaHierarquia dos headings (H1-H6) com posição em bytes
LinksNúmero de links internos, externos e nofollow detectados
Dados estruturadosJSON-LD detectado com tamanho e tipos identificados
Recursos inlineScripts, estilos, SVG e data URIs embutidos no HTML

Sub-recursos

ElementoO que a ferramenta verifica
ScriptsArquivos JavaScript externos carregados pela página
CSSFolhas de estilo externas
ImagensImagens referenciadas no HTML
FontesWeb fonts carregadas
IframesConteúdos de terceiros embutidos
Recursos de terceirosSub-recursos carregados de outros domínios
Erros de carregamentoRecursos retornando erro HTTP (404, 500, etc.)

Score de crawl budget

ElementoO que a ferramenta avalia
Score globalNota de 0 a 100, ponderada pela importância de cada fator
Tamanho da páginaImpacto do peso do HTML no budget de crawl
Número de sub-recursosCada requisição consome budget
Recursos de terceirosDomínios externos adicionam latência
Tempo de respostaUma resposta lenta reduz o número de páginas rastreadas
CompressãoA ausência de compressão desperdiça largura de banda

Redirecionamentos client-side

ElementoO que a ferramenta detecta
Meta refreshTags <meta http-equiv="refresh"> com URL e intervalo
JavaScriptPatterns window.location, document.location, location.href
Posição no HTMLLocalização em bytes do redirecionamento detectado

Impressão digital do conteúdo

ElementoDescrição
Hash SHA-256Impressão digital única do conteúdo da página
Detecção de mudançasCompare o hash entre duas análises para saber se o conteúdo mudou
Comparação mobile/desktopSe as duas versões têm o mesmo hash, o conteúdo é idêntico

Comparação mobile vs desktop

ElementoO que a ferramenta compara
TamanhoDiferença de peso do HTML entre as duas versões
HeadersDiferenças de Content-Type, compressão, cache, X-Robots-Tag
Meta tagsTitle, description, canonical, robots diferentes?
EstruturaNúmero de headings, links, dados estruturados
Impressão digitalMesmo hash = conteúdo idêntico, hash diferente = conteúdo distinto
VereditoSíntese: idêntico, diferenças menores ou críticas

Insira sua URL acima para obter a análise completa da sua página.


Casos de uso reais

Caso 1: Página de e-commerce com milhares de produtos

Sintoma: Sua página de categoria lista 500 produtos em HTML. O final da página (paginação, FAQ, links para subcategorias) não aparece nos resultados do Google.

Diagnóstico com a ferramenta: A página tem 3,2 MB de HTML. O Googlebot trunca em 2 MB, perdendo os 200 últimos produtos, a FAQ e todos os links de navegação do rodapé.

Ação: Migrar para paginação com carregamento dinâmico (lazy load), limitar a listagem inicial a 50 produtos, mover a FAQ para o topo da página.


Caso 2: Score de crawl budget baixo por causa dos sub-recursos

Sintoma: O Google rastreia poucas páginas do seu site, apesar de o conteúdo ser atualizado regularmente. Suas novas páginas levam semanas para aparecer no índice.

Diagnóstico com a ferramenta: Cada página carrega 85 sub-recursos, dos quais 40 scripts de terceiros (analytics, widgets, testes A/B). O score de crawl budget é 35/100. Os recursos de terceiros representam 60% das requisições.

Ação: Carregar os scripts de terceiros com defer/async, remover scripts não utilizados, agrupar arquivos CSS e JS, usar lazy loading para imagens abaixo da dobra.


Caso 3: Redirecionamento JavaScript invisível para o Googlebot

Sintoma: Sua página redireciona corretamente os usuários para a nova URL, mas a página antiga continua indexada no Google e a nova não aparece.

Diagnóstico com a ferramenta: A ferramenta detecta um window.location.href no HTML. É um redirecionamento JavaScript que o Googlebot não segue sistematicamente. Nenhum redirecionamento HTTP (301/302) está configurado.

Ação: Substituir o redirecionamento JavaScript por um redirecionamento HTTP 301 no servidor. Se uma transição for necessária, adicionar uma tag <link rel="canonical"> apontando para a nova URL.


Caso 4: robots.txt bloqueia uma seção importante

Sintoma: Suas páginas /pt/blog/ não são mais indexadas desde a atualização do seu robots.txt. Nenhum erro visível no Search Console.

Diagnóstico com a ferramenta: A análise do robots.txt mostra "URL bloqueada" com a regra Disallow: /pt/ que bloqueia todo o conteúdo em português. O robots.txt visava bloquear /pt/admin/, mas a regra é ampla demais.

Ação: Corrigir o robots.txt substituindo Disallow: /pt/ por Disallow: /pt/admin/. Verificar com a ferramenta que as páginas importantes estão autorizadas.


Caso 5: Conteúdo diferente entre mobile e desktop

Sintoma: Seu ranqueamento no Google cai, embora o conteúdo desktop seja completo e bem otimizado.

Diagnóstico com a ferramenta: O modo comparação revela que a versão smartphone serve um HTML mais leve: a FAQ, as avaliações de clientes e 3 seções de conteúdo estão ausentes. As impressões digitais SHA-256 são diferentes. O Google indexa a versão mobile, que está incompleta.

Ação: Garantir que a versão mobile contenha o mesmo conteúdo SEO que a versão desktop. Usar design responsivo em vez de conteúdo condicional no servidor.


Caso 6: Migração com perda de compressão

Sintoma: Após uma migração de servidor, suas páginas carregam mais lentamente e o Google rastreia menos páginas.

Diagnóstico com a ferramenta: O header Content-Encoding está ausente. O servidor não comprime mais o HTML. O score de crawl budget cai de 78/100 para 52/100.

Ação: Reativar a compressão gzip/brotli no novo servidor. Verificar a configuração do nginx/Apache.

Teste suas páginas com a ferramenta acima para identificar os problemas específicos do seu site.


❓ FAQ - Perguntas frequentes

P: Qual é o peso médio de uma página web?

R: Em 2025, o peso mediano de uma página web é de aproximadamente 2,5 MB (todos os tipos de recursos incluídos). Porém, o HTML sozinho pesa geralmente entre 50 KB e 500 KB. É o tamanho do HTML que conta para o limite de crawl do Googlebot, não o peso total incluindo imagens, CSS e JavaScript.


P: O que acontece quando uma página ultrapassa 2 MB?

R: O Googlebot trunca o HTML além de 2.097.152 bytes. Todo o conteúdo após esse ponto é ignorado para indexação. Na prática: links internos, FAQ estruturada, texto SEO no final da página não são mais considerados para o ranqueamento nos resultados de busca.


P: O que é o crawl budget?

R: O crawl budget é o número de páginas que o Googlebot pode rastrear no seu site em um período determinado. Páginas pesadas com muitos sub-recursos consomem mais recursos do servidor e da rede, reduzindo o número total de páginas rastreadas. Nossa ferramenta calcula um score de 0 a 100 para avaliar a eficiência de cada página.


P: Por que os sub-recursos impactam o crawl?

R: Cada sub-recurso (script, CSS, imagem, fonte) exige uma requisição HTTP adicional. O Googlebot tem uma capacidade de crawl limitada por domínio. Uma página carregando mais de 80 sub-recursos consome muito mais budget do que uma página carregando 20. Os recursos de terceiros adicionam latência e dependências externas.


P: O que é um redirecionamento client-side?

R: É um redirecionamento feito pelo navegador via tag meta refresh ou JavaScript (window.location). Diferente dos redirecionamentos HTTP (301, 302), o Googlebot nem sempre os segue. Se o seu único redirecionamento é client-side, a página de destino pode nunca ser indexada.


P: A ferramenta verifica o arquivo robots.txt?

R: Sim. A ferramenta recupera automaticamente o robots.txt do domínio e verifica se o Googlebot está autorizado a rastrear a URL testada. Ela também detecta o crawl-delay e os sitemaps declarados. Se o robots.txt bloqueia a URL, um aviso é exibido, mas a análise da página continua para que você possa ver o conteúdo mesmo assim.


P: A ferramenta funciona com arquivos PDF?

R: Sim. A ferramenta detecta automaticamente arquivos PDF e adapta o limite de tamanho: 64 MB em vez de 2 MB para o HTML. Um badge PDF é exibido no relatório e a análise HTML é desativada (não aplicável a PDFs).


P: Para que serve a impressão digital do conteúdo (hash)?

R: A ferramenta gera um hash SHA-256 do conteúdo da página. Essa impressão digital permite detectar se o conteúdo mudou entre duas análises, ou se as versões mobile e desktop servem conteúdo idêntico. Útil para monitorar modificações não intencionais após um deploy.


P: Por que comparar as versões mobile e desktop?

R: O Google usa o mobile-first indexing desde 2019: é a versão smartphone que é indexada prioritariamente. Se sua versão mobile serve um conteúdo diferente (menos texto, FAQ ausente, links faltando), seu ranqueamento sofre. O modo comparação detecta essas diferenças e as classifica por severidade.


P: Por que escolher Googlebot smartphone em vez de desktop?

R: O Google usa o mobile-first indexing desde 2019: é a versão smartphone da sua página que é indexada prioritariamente. Teste com o User-Agent smartphone para ver exatamente o que o Google indexa. O modo comparação permite verificar que as duas versões são consistentes.


P: Como reduzir o peso de uma página web?

R: As ações mais eficazes:

  • Remover CSS/JS inline desnecessário - Mover para arquivos externos
  • Ativar a compressão - gzip ou brotli no servidor
  • Minificar o HTML - Remover espaços e comentários
  • Externalizar os SVGs - Substituir SVGs inline por tags img
  • Lazy loading - Carregar conteúdo volumoso sob demanda

P: A compressão gzip/brotli conta no limite de 2 MB?

R: Não. O limite de 2 MB se aplica ao HTML descomprimido. Um HTML de 3 MB comprimido para 500 KB durante a transferência de rede será truncado a 2 MB assim que descomprimido pelo Googlebot. A compressão melhora a velocidade de transferência, mas não contorna o limite de tamanho.


P: Para que servem os headers HTTP personalizados?

R: Os headers personalizados permitem testar configurações específicas: enviar um cookie para acessar um site protegido, simular um header Accept-Language específico, ou reproduzir as condições de um CDN. A ferramenta exibe os headers enviados no relatório para confirmação.


Ferramentas complementares

FerramentaUtilidade
Pesquisa DNSVerificar os registros DNS do seu domínio
Verificador de propagação DNSConfirmar que suas alterações DNS estão propagadas globalmente
Auditoria de entregabilidade de emailAnalisar MX, SPF, DKIM e DMARC do seu domínio
Verificador SPFAnalisar e validar seu registro SPF
Hash GeneratorCalcular impressões SHA-256 para comparar o conteúdo das páginas
Redirecionamento de domínioSubstituir redirecionamentos JavaScript por 301/302 HTTPS adequados

Recursos úteis