Pourquoi utiliser des outils HTTP ?
Le protocole HTTP est le fondement de toute page web. Un problème HTTP signifie un contenu mal indexé, un site lent ou des ressources gaspillées. Sans analyse HTTP, vous ignorez ce que Googlebot voit réellement de vos pages et si vos visiteurs cliquent sur des liens sûrs.
Quatre situations où ces outils sont indispensables :
- Page trop lourde → Googlebot tronque le HTML au-delà de 2 MB, vos liens internes et FAQ disparaissent de l'index
- Headers incorrects → Un
Content-Typemal configuré ou unX-Robots-Tag: noindexoublié peut déréférencer une page entière - Crawl budget gaspillé → Des sous-ressources excessives et l'absence de compression réduisent le nombre de pages crawlées par Google
- Lien suspect reçu → Un email ou SMS contient un lien douteux, vous devez vérifier s'il est signalé comme phishing ou malware avant de cliquer
Comment utiliser les outils HTTP
Étape 1 : Choisir l'outil
| Besoin | Outil à utiliser |
|---|---|
| Analyser le poids, les headers et le crawl d'une page | Page Crawl Checker |
| Vérifier si un lien est du phishing ou malware | Phishing URL Checker |
Étape 2 : Entrer l'URL
Saisissez l'URL complète dans le champ de saisie. Les deux outils acceptent toute URL publique :
https://www.captaindns.com/fr/blog
Pour le Page Crawl Checker, testez en priorité vos pages les plus longues (catégories, pages produits, articles avec beaucoup d'images). Pour le Phishing URL Checker, collez directement le lien suspect reçu par email ou SMS.
Étape 3 : Analyser les résultats
Chaque outil fournit un rapport détaillé :
- Page Crawl Checker : taille HTML, score crawl budget (0-100), inventaire des sous-ressources, vérification robots.txt, headers HTTP, détection des redirections côté client, empreinte SHA-256
- Phishing URL Checker : verdict global (propre, suspect, malveillant), score de risque (0-100), détails par source de threat intelligence, diagnostics de couverture
Détails des outils
Page Crawl Checker
Analyse complète du crawl d'une page web du point de vue de Googlebot :
| Fonctionnalité | Description |
|---|---|
| Analyse de taille | Poids brut et décompressé du HTML, ratio par rapport à la limite de 2 MB (ou 64 MB pour les PDF) |
| Score crawl budget | Note sur 100 évaluant l'efficacité de la page pour le crawl, avec détail des facteurs |
| Sous-ressources | Inventaire complet des scripts, CSS, images, fonts et iframes avec taille et statut |
| Vérification robots.txt | Accès Googlebot autorisé ou bloqué, crawl-delay, sitemaps déclarés |
| Headers HTTP | Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag, HSTS, Server |
| Redirections client | Détection des meta refresh et redirections JavaScript invisibles pour Googlebot |
| Comparaison mobile/desktop | Différences de taille, headers et contenu entre les versions smartphone et desktop |
| Empreinte SHA-256 | Hash du contenu pour détecter les changements entre analyses |
| Détection WAF | Identification du pare-feu applicatif avec fallback multi-User-Agent |
Utilité : Diagnostiquer les problèmes de taille et de crawl qui impactent l'indexation Google, optimiser le crawl budget et détecter les redirections JavaScript que Googlebot ne suit pas.
Phishing URL Checker
Vérification d'une URL contre 4 bases de threat intelligence :
| Fonctionnalité | Description |
|---|---|
| 4 sources interrogées | URLhaus (malware), Google Safe Browsing (phishing), PhishTank (phishing communautaire), VirusTotal (70+ antivirus) |
| Score de risque | Score pondéré de 0 à 100 selon la fiabilité de chaque source |
| Verdict global | Propre, suspect, malveillant ou indéterminé |
| Détails par source | Statut individuel, types de menaces détectés et temps de réponse |
| Formats acceptés | URL complète, nom de domaine nu ou adresse IP |
| Diagnostics | Informations sur les sources indisponibles, timeouts et couverture limitée |
Utilité : Vérifier un lien suspect avant de cliquer, protéger votre organisation contre les campagnes de phishing et vérifier que votre propre domaine n'est pas faussement signalé (faux positif).
Cas d'usage concrets
Cas 1 : Page e-commerce tronquée par Googlebot
Symptôme : La FAQ et les liens de navigation en bas de votre page catégorie n'apparaissent pas dans les résultats Google.
Diagnostic : Le Page Crawl Checker révèle que la page fait 3,2 MB de HTML. Googlebot tronque à 2 MB et perd les 200 derniers produits, la FAQ et le maillage interne du footer.
Action : Limiter le listing initial, utiliser la pagination avec chargement différé et déplacer la FAQ en haut de page.
Cas 2 : Email de phishing bancaire
Symptôme : Vous recevez un email urgent de votre "banque" avec un lien de vérification de compte.
Diagnostic : Le Phishing URL Checker retourne un score de 75 (élevé). Google Safe Browsing et PhishTank signalent l'URL comme phishing social engineering.
Action : Ne pas cliquer. Signaler l'email comme phishing. Accéder au site de votre banque en tapant l'adresse directement dans le navigateur.
Cas 3 : Score crawl budget faible
Symptôme : Google crawle peu de pages de votre site malgré un contenu régulièrement mis à jour.
Diagnostic : Le Page Crawl Checker affiche un score de 35/100. La page charge 85 sous-ressources dont 40 scripts tiers (analytics, widgets, AB testing).
Action : Charger les scripts tiers en différé (defer/async), supprimer les scripts inutilisés, activer la compression gzip/brotli.
Cas 4 : Lien raccourci suspect dans un SMS
Symptôme : Un SMS contient un lien bit.ly vous demandant de "mettre à jour votre colis".
Diagnostic : Après avoir déplié le lien raccourci, le Phishing URL Checker signale l'URL finale. URLhaus la référence comme distribution de malware.
Action : Supprimer le SMS et bloquer le numéro. Les services de livraison légitimes ne demandent jamais de paiement par SMS.
❓ FAQ - Questions fréquentes
Q : Pourquoi analyser les pages web avec des outils HTTP ?
R : Les outils HTTP détectent des problèmes invisibles : pages trop lourdes pour Googlebot (troncature au-delà de 2 MB), headers mal configurés (X-Robots-Tag: noindex oublié), redirections JavaScript que Googlebot ne suit pas. Ces problèmes impactent directement votre référencement sans avertissement dans la Search Console.
Q : Comment vérifier si un lien est du phishing ?
R : Collez l'URL dans le Phishing URL Checker. L'outil interroge 4 bases de threat intelligence en parallèle (URLhaus, Google Safe Browsing, PhishTank, VirusTotal) et retourne un verdict avec un score de risque de 0 à 100.
Q : Qu'est-ce que la limite de 2 MB de Googlebot ?
R : Google peut télécharger et indexer les premiers 2 097 152 octets de HTML d'une page. Au-delà, le contenu est tronqué. La limite s'applique au HTML décompressé : la compression gzip/brotli ne contourne pas cette limite.
Q : Qu'est-ce que le crawl budget ?
R : Le crawl budget est le nombre de pages que Googlebot peut crawler dans un temps donné. Des pages lourdes avec beaucoup de sous-ressources consomment plus de ressources. Le Page Crawl Checker calcule un score sur 100 pour évaluer l'efficacité de chaque page.
Q : Quelle différence entre phishing et malware ?
R : Le phishing imite un service légitime pour voler des identifiants. Le malware distribue des logiciels malveillants (virus, ransomware, trojans). Une URL peut être signalée pour les deux. Le Phishing URL Checker distingue ces catégories dans les résultats.
Q : Le résultat du Phishing URL Checker est-il fiable à 100 % ?
R : Aucun outil ne garantit une détection à 100 %. La durée de vie moyenne d'une URL de phishing est inférieure à 24 heures. Un résultat "propre" signifie qu'aucune source ne la signale au moment de la vérification, pas qu'elle est définitivement sûre.
Q : Comment réduire le poids d'une page web ?
R : Supprimez le CSS et JavaScript inline inutile, activez la compression gzip ou brotli, externalisez les SVG, minifiez le HTML et utilisez le lazy loading. Le Page Crawl Checker identifie les points d'amélioration spécifiques.
Outils complémentaires
| Outil | Utilité |
|---|---|
| Recherche DNS | Vérifier les enregistrements DNS de votre domaine |
| Audit de délivrabilité email | Analyser MX, SPF, DKIM et DMARC de votre domaine |
| Vérificateur de propagation DNS | Confirmer que vos modifications DNS sont propagées |
| IP Blacklist Checker | Vérifier si une IP est listée sur les blacklists email |
| Domain Blacklist Checker | Vérifier si un domaine est blacklisté pour spam ou phishing |
Ressources utiles
- Google - Documentation sur les limites de crawl (documentation officielle Googlebot)
- Google - Mobile-first indexing (guide du mobile-first indexing)
- Google Safe Browsing (protection contre les sites dangereux)
- URLhaus by abuse.ch (base communautaire de URLs malveillantes)
- HTTP Archive - State of the Web (statistiques sur le poids des pages web)