Por que usar ferramentas HTTP?
O protocolo HTTP é a base de toda página web. Um problema HTTP significa conteúdo mal indexado, site lento ou recursos desperdiçados. Sem análise HTTP, você ignora o que o Googlebot realmente vê das suas páginas e se seus visitantes estão clicando em links seguros.
Quatro situações em que essas ferramentas são indispensáveis:
- Página pesada demais → O Googlebot trunca o HTML além de 2 MB, seus links internos e FAQ desaparecem do índice
- Headers incorretos → Um
Content-Typemal configurado ou umX-Robots-Tag: noindexesquecido pode desindexar uma página inteira - Crawl budget desperdiçado → Sub-recursos excessivos e a ausência de compressão reduzem o número de páginas rastreadas pelo Google
- Link suspeito recebido → Um email ou SMS contém um link duvidoso, e você precisa verificar se está sinalizado como phishing ou malware antes de clicar
Como usar as ferramentas HTTP
Passo 1: Escolher a ferramenta
| Necessidade | Ferramenta a usar |
|---|---|
| Analisar o peso, os headers e o crawl de uma página | Page Crawl Checker |
| Verificar se um link é phishing ou malware | Phishing URL Checker |
Passo 2: Inserir a URL
Digite a URL completa no campo de entrada. As duas ferramentas aceitam qualquer URL pública:
https://www.captaindns.com/pt/blog
Para o Page Crawl Checker, teste primeiro suas páginas mais longas (categorias, páginas de produtos, artigos com muitas imagens). Para o Phishing URL Checker, cole diretamente o link suspeito recebido por email ou SMS.
Passo 3: Analisar os resultados
Cada ferramenta fornece um relatório detalhado:
- Page Crawl Checker: tamanho HTML, score de crawl budget (0-100), inventário de sub-recursos, verificação robots.txt, headers HTTP, detecção de redirecionamentos do lado do cliente, fingerprint SHA-256
- Phishing URL Checker: veredito global (limpo, suspeito, malicioso), pontuação de risco (0-100), detalhes por fonte de threat intelligence, diagnósticos de cobertura
Detalhes das ferramentas
Page Crawl Checker
Análise completa do crawl de uma página web do ponto de vista do Googlebot:
| Funcionalidade | Descrição |
|---|---|
| Análise de tamanho | Peso bruto e descomprimido do HTML, proporção em relação ao limite de 2 MB (ou 64 MB para PDFs) |
| Score de crawl budget | Nota de 0 a 100 avaliando a eficiência da página para o crawl, com detalhamento dos fatores |
| Sub-recursos | Inventário completo de scripts, CSS, imagens, fontes e iframes com tamanho e status |
| Verificação robots.txt | Acesso do Googlebot autorizado ou bloqueado, crawl-delay, sitemaps declarados |
| Headers HTTP | Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag, HSTS, Server |
| Redirecionamentos do cliente | Detecção de meta refresh e redirecionamentos JavaScript invisíveis para o Googlebot |
| Comparação mobile/desktop | Diferenças de tamanho, headers e conteúdo entre as versões smartphone e desktop |
| Fingerprint SHA-256 | Hash do conteúdo para detectar mudanças entre análises |
| Detecção de WAF | Identificação do firewall de aplicação com fallback multi-User-Agent |
Utilidade: Diagnosticar problemas de tamanho e crawl que impactam a indexação do Google, otimizar o crawl budget e detectar redirecionamentos JavaScript que o Googlebot não segue.
Phishing URL Checker
Verificação de uma URL contra 4 bases de threat intelligence:
| Funcionalidade | Descrição |
|---|---|
| 4 fontes consultadas | URLhaus (malware), Google Safe Browsing (phishing), PhishTank (phishing comunitário), VirusTotal (70+ antivírus) |
| Pontuação de risco | Score ponderado de 0 a 100 conforme a confiabilidade de cada fonte |
| Veredito global | Limpo, suspeito, malicioso ou indeterminado |
| Detalhes por fonte | Status individual, tipos de ameaças detectados e tempo de resposta |
| Formatos aceitos | URL completa, nome de domínio puro ou endereço IP |
| Diagnósticos | Informações sobre fontes indisponíveis, timeouts e cobertura limitada |
Utilidade: Verificar um link suspeito antes de clicar, proteger sua organização contra campanhas de phishing e verificar que seu próprio domínio não esteja falsamente sinalizado (falso positivo).
Casos de uso concretos
Caso 1: Página de e-commerce truncada pelo Googlebot
Sintoma: A FAQ e os links de navegação no final da sua página de categoria não aparecem nos resultados do Google.
Diagnóstico: O Page Crawl Checker revela que a página tem 3,2 MB de HTML. O Googlebot trunca em 2 MB e perde os últimos 200 produtos, a FAQ e os links internos do footer.
Ação: Limitar a listagem inicial, usar paginação com carregamento sob demanda e mover a FAQ para o topo da página.
Caso 2: Email de phishing bancário
Sintoma: Você recebe um email urgente do seu "banco" com um link de verificação de conta.
Diagnóstico: O Phishing URL Checker retorna um score de 75 (elevado). Google Safe Browsing e PhishTank sinalizam a URL como phishing de engenharia social.
Ação: Não clicar. Denunciar o email como phishing. Acessar o site do seu banco digitando o endereço diretamente no navegador.
Caso 3: Score de crawl budget baixo
Sintoma: O Google rastreia poucas páginas do seu site apesar de conteúdo atualizado regularmente.
Diagnóstico: O Page Crawl Checker mostra um score de 35/100. A página carrega 85 sub-recursos, sendo 40 scripts de terceiros (analytics, widgets, testes A/B).
Ação: Carregar scripts de terceiros com defer/async, remover scripts não utilizados, ativar compressão gzip/brotli.
Caso 4: Link encurtado suspeito em um SMS
Sintoma: Um SMS contém um link bit.ly pedindo para "atualizar seu pacote de entrega".
Diagnóstico: Após expandir o link encurtado, o Phishing URL Checker sinaliza a URL final. O URLhaus a referencia como distribuição de malware.
Ação: Excluir o SMS e bloquear o número. Serviços de entrega legítimos nunca pedem pagamento por SMS.
❓ FAQ - Perguntas frequentes
P: Por que analisar páginas web com ferramentas HTTP?
R: As ferramentas HTTP detectam problemas invisíveis: páginas pesadas demais para o Googlebot (truncagem além de 2 MB), headers mal configurados (X-Robots-Tag: noindex esquecido), redirecionamentos JavaScript que o Googlebot não segue. Esses problemas impactam diretamente seu posicionamento nos buscadores sem aviso no Search Console.
P: Como verificar se um link é phishing?
R: Cole a URL no Phishing URL Checker. A ferramenta consulta 4 bases de threat intelligence em paralelo (URLhaus, Google Safe Browsing, PhishTank, VirusTotal) e retorna um veredito com uma pontuação de risco de 0 a 100.
P: O que é o limite de 2 MB do Googlebot?
R: O Google pode baixar e indexar os primeiros 2.097.152 bytes de HTML de uma página. Além disso, o conteúdo é truncado. O limite se aplica ao HTML descomprimido: a compressão gzip/brotli não contorna esse limite.
P: O que é o crawl budget?
R: O crawl budget é o número de páginas que o Googlebot pode rastrear em um determinado período. Páginas pesadas com muitos sub-recursos consomem mais recursos. O Page Crawl Checker calcula um score de 0 a 100 para avaliar a eficiência de cada página.
P: Qual a diferença entre phishing e malware?
R: O phishing imita um serviço legítimo para roubar credenciais. O malware distribui softwares maliciosos (vírus, ransomware, trojans). Uma URL pode ser sinalizada por ambos. O Phishing URL Checker distingue essas categorias nos resultados.
P: O resultado do Phishing URL Checker é 100% confiável?
R: Nenhuma ferramenta garante detecção de 100%. A vida útil média de uma URL de phishing é inferior a 24 horas. Um resultado "limpo" significa que nenhuma fonte a sinaliza no momento da verificação, não que ela é definitivamente segura.
P: Como reduzir o peso de uma página web?
R: Remova o CSS e JavaScript inline desnecessário, ative a compressão gzip ou brotli, externalize os SVG, minifique o HTML e use lazy loading. O Page Crawl Checker identifica os pontos de melhoria específicos.
Ferramentas complementares
| Ferramenta | Utilidade |
|---|---|
| Pesquisa DNS | Verificar os registros DNS do seu domínio |
| Auditoria de entregabilidade de email | Analisar MX, SPF, DKIM e DMARC do seu domínio |
| Verificador de propagação DNS | Confirmar que suas alterações DNS estão propagadas |
| IP Blacklist Checker | Verificar se um IP está listado nas blacklists de email |
| Domain Blacklist Checker | Verificar se um domínio está em blacklist por spam ou phishing |
Recursos úteis
- Google - Documentação sobre limites de crawl (documentação oficial do Googlebot)
- Google - Mobile-first indexing (guia de mobile-first indexing)
- Google Safe Browsing (proteção contra sites perigosos)
- URLhaus by abuse.ch (base comunitária de URLs maliciosas)
- HTTP Archive - State of the Web (estatísticas sobre o peso das páginas web)