Por que analisar o crawl das suas páginas web?
Se o HTML da sua página ultrapassa 2 MB, o Googlebot o trunca silenciosamente. Sem erro no Search Console, sem aviso: o conteúdo no final da página desaparece do índice do Google (fonte: documentação Google). E isso é só parte do problema: robots.txt mal configurado, sub-recursos excessivos, redirecionamentos JavaScript invisíveis e compressão inadequada consomem seu crawl budget sem que você perceba.
Cinco razões para analisar o crawl das suas páginas:
- Evitar o truncamento - Páginas com HTML inline pesado (SVG, CSS, JSON-LD volumoso) frequentemente ultrapassam o limite sem que você perceba
- Verificar o acesso do Googlebot - Um robots.txt mal configurado pode bloquear o crawl de páginas importantes
- Otimizar o crawl budget - Páginas mais leves com menos sub-recursos = mais páginas rastreadas pelo Google no tempo disponível
- Detectar redirecionamentos invisíveis - Os meta refresh e redirecionamentos JavaScript nem sempre são seguidos pelo Googlebot
- Comparar mobile vs desktop - O mobile-first indexing significa que a versão smartphone é a que conta para a indexação
Como usar o page crawl checker em 3 passos
Passo 1: Inserir a URL da página
Digite a URL completa da página a analisar no campo acima. A ferramenta aceita qualquer URL pública acessível, incluindo arquivos PDF:
https://www.captaindns.com/pt
Teste suas páginas mais longas primeiro: páginas de categoria, páginas de produto com muitas variantes, artigos de blog com muitas imagens inline.
Passo 2: Escolher o User-Agent e as opções
Selecione o User-Agent para simular o crawl:
- Googlebot smartphone (recomendado): simula o crawl mobile-first, aquele que o Google usa para a indexação principal
- Googlebot desktop: útil para comparar a versão desktop se seu site serve um HTML diferente
- Modo comparação: teste os dois User-Agents simultaneamente para detectar diferenças de conteúdo, tamanho e headers
Nas opções avançadas, você pode adicionar headers HTTP personalizados. Útil para testar um site atrás de um CDN, um proxy reverso, ou para enviar um cookie de autenticação específico.
Passo 3: Consultar o relatório completo
O relatório exibe:
- KPI no topo da página: tamanho, score de crawl budget, número de sub-recursos, tempo de resposta, redirecionamentos client-side
- Barra de progresso: proporção visual em relação ao limite de 2 MB (ou 64 MB para PDFs)
- robots.txt: verificação de que o Googlebot está autorizado a rastrear a URL, crawl-delay e sitemaps detectados
- Headers HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag e seus headers personalizados enviados
- Análise HTML: meta tags, headings, links, dados estruturados, recursos inline
- Sub-recursos: inventário completo dos scripts, CSS, imagens, fontes, iframes com tamanho e status
- Crawl budget: score de 0 a 100 com detalhamento dos fatores e impacto individual
- Redirecionamentos client-side: meta refresh e JavaScript detectados no HTML
- Impressão digital do conteúdo: hash SHA-256 para detectar mudanças entre análises
- Simulação de truncamento: se aplicável, visualize exatamente onde o Googlebot cortaria
- Recomendações: ações concretas priorizadas por impacto
O que é o limite de 2 MB do Googlebot?
O Google documenta um limite de tamanho para o crawl: o Googlebot pode baixar e indexar os primeiros 2.097.152 bytes (2 MB) do código-fonte HTML de uma página. Além disso, o conteúdo é truncado. Para arquivos PDF, o limite é de 64 MB.
O que isso significa na prática:
| Tipo de conteúdo | Limite | Consequência se ultrapassar |
|---|---|---|
| HTML | 2 MB (2.097.152 bytes) | Truncamento: conteúdo no final da página ignorado |
| 64 MB | Truncamento do conteúdo textual extraído |
Atenção: o limite de HTML se aplica ao conteúdo descomprimido. A compressão gzip/brotli não muda nada: um HTML de 3 MB comprimido em trânsito continuará sendo truncado a 2 MB após a descompressão.
Páginas em risco:
- Páginas de e-commerce com centenas de produtos listados em HTML
- Landing pages com SVG inline ou CSS embutido volumoso
- Páginas com JSON-LD estruturado muito detalhado (ex: FAQ com mais de 50 perguntas)
- Páginas geradas no servidor com JavaScript inline abundante
O que a ferramenta analisa exatamente?
Análise de tamanho
| Elemento | Descrição |
|---|---|
| Tamanho bruto | Peso exato do HTML retornado pelo servidor, em bytes |
| Tamanho descomprimido | Tamanho após decodificação gzip/brotli (o que conta para o Googlebot) |
| Proporção do limite | Porcentagem do limite consumida (2 MB para HTML, 64 MB para PDF) |
| Tipo de conteúdo | Detecção automática HTML, PDF ou outro com badge visual |
Verificação do robots.txt
| Elemento | O que a ferramenta verifica |
|---|---|
| Acesso do Googlebot | A URL testada é autorizada ou bloqueada pelo robots.txt? |
| Agente correspondente | Qual regra se aplica (Googlebot, *, etc.) |
| Crawl-delay | Intervalo imposto entre as requisições de crawl |
| Sitemaps | Arquivos sitemap declarados no robots.txt |
Headers HTTP
| Header | Por que é importante |
|---|---|
| Content-Type | Confirma que o servidor retorna HTML (ou um PDF) |
| Content-Encoding | Indica se a compressão está ativa (gzip, br) |
| X-Robots-Tag | Detecta um possível noindex/nofollow no nível HTTP |
| Cache-Control | Configuração de cache que impacta a frequência de crawl |
| Headers personalizados | Seus headers enviados são exibidos para confirmação |
Análise HTML
| Elemento | O que a ferramenta verifica |
|---|---|
| Meta tags | Presença e conteúdo de title, description, robots, canonical |
| Estrutura | Hierarquia dos headings (H1-H6) com posição em bytes |
| Links | Número de links internos, externos e nofollow detectados |
| Dados estruturados | JSON-LD detectado com tamanho e tipos identificados |
| Recursos inline | Scripts, estilos, SVG e data URIs embutidos no HTML |
Sub-recursos
| Elemento | O que a ferramenta verifica |
|---|---|
| Scripts | Arquivos JavaScript externos carregados pela página |
| CSS | Folhas de estilo externas |
| Imagens | Imagens referenciadas no HTML |
| Fontes | Web fonts carregadas |
| Iframes | Conteúdos de terceiros embutidos |
| Recursos de terceiros | Sub-recursos carregados de outros domínios |
| Erros de carregamento | Recursos retornando erro HTTP (404, 500, etc.) |
Score de crawl budget
| Elemento | O que a ferramenta avalia |
|---|---|
| Score global | Nota de 0 a 100, ponderada pela importância de cada fator |
| Tamanho da página | Impacto do peso do HTML no budget de crawl |
| Número de sub-recursos | Cada requisição consome budget |
| Recursos de terceiros | Domínios externos adicionam latência |
| Tempo de resposta | Uma resposta lenta reduz o número de páginas rastreadas |
| Compressão | A ausência de compressão desperdiça largura de banda |
Redirecionamentos client-side
| Elemento | O que a ferramenta detecta |
|---|---|
| Meta refresh | Tags <meta http-equiv="refresh"> com URL e intervalo |
| JavaScript | Patterns window.location, document.location, location.href |
| Posição no HTML | Localização em bytes do redirecionamento detectado |
Impressão digital do conteúdo
| Elemento | Descrição |
|---|---|
| Hash SHA-256 | Impressão digital única do conteúdo da página |
| Detecção de mudanças | Compare o hash entre duas análises para saber se o conteúdo mudou |
| Comparação mobile/desktop | Se as duas versões têm o mesmo hash, o conteúdo é idêntico |
Comparação mobile vs desktop
| Elemento | O que a ferramenta compara |
|---|---|
| Tamanho | Diferença de peso do HTML entre as duas versões |
| Headers | Diferenças de Content-Type, compressão, cache, X-Robots-Tag |
| Meta tags | Title, description, canonical, robots diferentes? |
| Estrutura | Número de headings, links, dados estruturados |
| Impressão digital | Mesmo hash = conteúdo idêntico, hash diferente = conteúdo distinto |
| Veredito | Síntese: idêntico, diferenças menores ou críticas |
Insira sua URL acima para obter a análise completa da sua página.
Casos de uso reais
Caso 1: Página de e-commerce com milhares de produtos
Sintoma: Sua página de categoria lista 500 produtos em HTML. O final da página (paginação, FAQ, links para subcategorias) não aparece nos resultados do Google.
Diagnóstico com a ferramenta: A página tem 3,2 MB de HTML. O Googlebot trunca em 2 MB, perdendo os 200 últimos produtos, a FAQ e todos os links de navegação do rodapé.
Ação: Migrar para paginação com carregamento dinâmico (lazy load), limitar a listagem inicial a 50 produtos, mover a FAQ para o topo da página.
Caso 2: Score de crawl budget baixo por causa dos sub-recursos
Sintoma: O Google rastreia poucas páginas do seu site, apesar de o conteúdo ser atualizado regularmente. Suas novas páginas levam semanas para aparecer no índice.
Diagnóstico com a ferramenta: Cada página carrega 85 sub-recursos, dos quais 40 scripts de terceiros (analytics, widgets, testes A/B). O score de crawl budget é 35/100. Os recursos de terceiros representam 60% das requisições.
Ação: Carregar os scripts de terceiros com defer/async, remover scripts não utilizados, agrupar arquivos CSS e JS, usar lazy loading para imagens abaixo da dobra.
Caso 3: Redirecionamento JavaScript invisível para o Googlebot
Sintoma: Sua página redireciona corretamente os usuários para a nova URL, mas a página antiga continua indexada no Google e a nova não aparece.
Diagnóstico com a ferramenta: A ferramenta detecta um window.location.href no HTML. É um redirecionamento JavaScript que o Googlebot não segue sistematicamente. Nenhum redirecionamento HTTP (301/302) está configurado.
Ação: Substituir o redirecionamento JavaScript por um redirecionamento HTTP 301 no servidor. Se uma transição for necessária, adicionar uma tag <link rel="canonical"> apontando para a nova URL.
Caso 4: robots.txt bloqueia uma seção importante
Sintoma: Suas páginas /pt/blog/ não são mais indexadas desde a atualização do seu robots.txt. Nenhum erro visível no Search Console.
Diagnóstico com a ferramenta: A análise do robots.txt mostra "URL bloqueada" com a regra Disallow: /pt/ que bloqueia todo o conteúdo em português. O robots.txt visava bloquear /pt/admin/, mas a regra é ampla demais.
Ação: Corrigir o robots.txt substituindo Disallow: /pt/ por Disallow: /pt/admin/. Verificar com a ferramenta que as páginas importantes estão autorizadas.
Caso 5: Conteúdo diferente entre mobile e desktop
Sintoma: Seu ranqueamento no Google cai, embora o conteúdo desktop seja completo e bem otimizado.
Diagnóstico com a ferramenta: O modo comparação revela que a versão smartphone serve um HTML mais leve: a FAQ, as avaliações de clientes e 3 seções de conteúdo estão ausentes. As impressões digitais SHA-256 são diferentes. O Google indexa a versão mobile, que está incompleta.
Ação: Garantir que a versão mobile contenha o mesmo conteúdo SEO que a versão desktop. Usar design responsivo em vez de conteúdo condicional no servidor.
Caso 6: Migração com perda de compressão
Sintoma: Após uma migração de servidor, suas páginas carregam mais lentamente e o Google rastreia menos páginas.
Diagnóstico com a ferramenta: O header Content-Encoding está ausente. O servidor não comprime mais o HTML. O score de crawl budget cai de 78/100 para 52/100.
Ação: Reativar a compressão gzip/brotli no novo servidor. Verificar a configuração do nginx/Apache.
Teste suas páginas com a ferramenta acima para identificar os problemas específicos do seu site.
❓ FAQ - Perguntas frequentes
P: Qual é o peso médio de uma página web?
R: Em 2025, o peso mediano de uma página web é de aproximadamente 2,5 MB (todos os tipos de recursos incluídos). Porém, o HTML sozinho pesa geralmente entre 50 KB e 500 KB. É o tamanho do HTML que conta para o limite de crawl do Googlebot, não o peso total incluindo imagens, CSS e JavaScript.
P: O que acontece quando uma página ultrapassa 2 MB?
R: O Googlebot trunca o HTML além de 2.097.152 bytes. Todo o conteúdo após esse ponto é ignorado para indexação. Na prática: links internos, FAQ estruturada, texto SEO no final da página não são mais considerados para o ranqueamento nos resultados de busca.
P: O que é o crawl budget?
R: O crawl budget é o número de páginas que o Googlebot pode rastrear no seu site em um período determinado. Páginas pesadas com muitos sub-recursos consomem mais recursos do servidor e da rede, reduzindo o número total de páginas rastreadas. Nossa ferramenta calcula um score de 0 a 100 para avaliar a eficiência de cada página.
P: Por que os sub-recursos impactam o crawl?
R: Cada sub-recurso (script, CSS, imagem, fonte) exige uma requisição HTTP adicional. O Googlebot tem uma capacidade de crawl limitada por domínio. Uma página carregando mais de 80 sub-recursos consome muito mais budget do que uma página carregando 20. Os recursos de terceiros adicionam latência e dependências externas.
P: O que é um redirecionamento client-side?
R: É um redirecionamento feito pelo navegador via tag meta refresh ou JavaScript (window.location). Diferente dos redirecionamentos HTTP (301, 302), o Googlebot nem sempre os segue. Se o seu único redirecionamento é client-side, a página de destino pode nunca ser indexada.
P: A ferramenta verifica o arquivo robots.txt?
R: Sim. A ferramenta recupera automaticamente o robots.txt do domínio e verifica se o Googlebot está autorizado a rastrear a URL testada. Ela também detecta o crawl-delay e os sitemaps declarados. Se o robots.txt bloqueia a URL, um aviso é exibido, mas a análise da página continua para que você possa ver o conteúdo mesmo assim.
P: A ferramenta funciona com arquivos PDF?
R: Sim. A ferramenta detecta automaticamente arquivos PDF e adapta o limite de tamanho: 64 MB em vez de 2 MB para o HTML. Um badge PDF é exibido no relatório e a análise HTML é desativada (não aplicável a PDFs).
P: Para que serve a impressão digital do conteúdo (hash)?
R: A ferramenta gera um hash SHA-256 do conteúdo da página. Essa impressão digital permite detectar se o conteúdo mudou entre duas análises, ou se as versões mobile e desktop servem conteúdo idêntico. Útil para monitorar modificações não intencionais após um deploy.
P: Por que comparar as versões mobile e desktop?
R: O Google usa o mobile-first indexing desde 2019: é a versão smartphone que é indexada prioritariamente. Se sua versão mobile serve um conteúdo diferente (menos texto, FAQ ausente, links faltando), seu ranqueamento sofre. O modo comparação detecta essas diferenças e as classifica por severidade.
P: Por que escolher Googlebot smartphone em vez de desktop?
R: O Google usa o mobile-first indexing desde 2019: é a versão smartphone da sua página que é indexada prioritariamente. Teste com o User-Agent smartphone para ver exatamente o que o Google indexa. O modo comparação permite verificar que as duas versões são consistentes.
P: Como reduzir o peso de uma página web?
R: As ações mais eficazes:
- Remover CSS/JS inline desnecessário - Mover para arquivos externos
- Ativar a compressão - gzip ou brotli no servidor
- Minificar o HTML - Remover espaços e comentários
- Externalizar os SVGs - Substituir SVGs inline por tags
img - Lazy loading - Carregar conteúdo volumoso sob demanda
P: A compressão gzip/brotli conta no limite de 2 MB?
R: Não. O limite de 2 MB se aplica ao HTML descomprimido. Um HTML de 3 MB comprimido para 500 KB durante a transferência de rede será truncado a 2 MB assim que descomprimido pelo Googlebot. A compressão melhora a velocidade de transferência, mas não contorna o limite de tamanho.
P: Para que servem os headers HTTP personalizados?
R: Os headers personalizados permitem testar configurações específicas: enviar um cookie para acessar um site protegido, simular um header Accept-Language específico, ou reproduzir as condições de um CDN. A ferramenta exibe os headers enviados no relatório para confirmação.
Ferramentas complementares
| Ferramenta | Utilidade |
|---|---|
| Pesquisa DNS | Verificar os registros DNS do seu domínio |
| Verificador de propagação DNS | Confirmar que suas alterações DNS estão propagadas globalmente |
| Auditoria de entregabilidade de email | Analisar MX, SPF, DKIM e DMARC do seu domínio |
| Verificador SPF | Analisar e validar seu registro SPF |
| Hash Generator | Calcular impressões SHA-256 para comparar o conteúdo das páginas |
| Redirecionamento de domínio | Substituir redirecionamentos JavaScript por 301/302 HTTPS adequados |
Recursos úteis
- Google - Documentação sobre limites de crawl (documentação oficial do Googlebot)
- Google - Mobile-first indexing (guia do mobile-first indexing)
- Google - Crawl budget management (gestão do crawl budget para sites grandes)
- HTTP Archive - State of the Web (estatísticas sobre o peso das páginas web)
- Web.dev - Optimize Largest Contentful Paint (otimização de performance web)