Aller au contenu principal

Analyseur de crawl de page web

Diagnostic complet du crawl Googlebot en quelques secondes

Votre page est-elle correctement crawlée par Google ? Mesurez le poids HTML, vérifiez robots.txt, analysez les sous-ressources et estimez votre score crawl budget. Détectez les redirections meta refresh, comparez mobile vs desktop et générez une empreinte SHA-256 du contenu. Diagnostic gratuit, résultats en quelques secondes.

Envoyer des headers personnalisés avec la requête. User-Agent, Host et les headers de transfert ne sont pas autorisés (max 10 headers, 1 Ko par valeur).

Analyse de taille et troncature

Mesurez le poids exact du HTML décompressé. Visualisez le ratio par rapport à la limite de 2 MB (HTML) ou 64 MB (PDF) avec une barre de progression.

Score crawl budget

Obtenez un score sur 100 évaluant l'efficacité de votre page pour le crawl. Identifiez les facteurs qui consomment inutilement votre budget.

Inventaire des sous-ressources

Listez tous les scripts, CSS, images, fonts et iframes chargés par la page. Repérez les ressources tierces et les erreurs de chargement.

Détection des redirections client

Identifiez les redirections meta refresh et JavaScript invisibles pour Googlebot. Ces redirections côté client peuvent bloquer l'indexation.

Comparaison mobile vs desktop

Comparez les versions smartphone et desktop de votre page. Détectez les différences de taille, de contenu et de headers entre les deux versions.

Pourquoi analyser le crawl de vos pages web ?

Si votre page HTML dépasse 2 MB, Googlebot la tronque silencieusement. Pas d'erreur dans la Search Console, pas d'avertissement : le contenu en bas de page disparaît de l'index Google (source : documentation Google). Et ce n'est qu'une partie du problème : robots.txt mal configuré, sous-ressources excessives, redirections JavaScript invisibles et mauvaise compression consomment votre crawl budget sans que vous le sachiez.

Cinq raisons d'analyser le crawl de vos pages :

  • Éviter la troncature - Les pages avec du HTML inline lourd (SVG, CSS, JSON-LD volumineux) dépassent souvent la limite sans que vous le sachiez
  • Vérifier l'accès Googlebot - Un robots.txt mal configuré peut bloquer le crawl de pages importantes
  • Optimiser le crawl budget - Des pages plus légères avec moins de sous-ressources = plus de pages crawlées par Google dans le temps imparti
  • Détecter les redirections invisibles - Les meta refresh et redirections JavaScript ne sont pas toujours suivis par Googlebot
  • Comparer mobile vs desktop - Le mobile-first indexing signifie que la version smartphone est celle qui compte pour l'indexation

Comment utiliser le page crawl checker en 3 étapes

Étape 1 : Entrer l'URL de la page

Saisissez l'URL complète de la page à analyser dans le champ ci-dessus. L'outil accepte toute URL publique accessible, y compris les fichiers PDF :

https://www.captaindns.com/fr

Testez vos pages les plus longues en priorité : pages catégories, pages produits avec beaucoup de variantes, articles de blog avec de nombreuses images inline.

Étape 2 : Choisir le User-Agent et les options

Sélectionnez le User-Agent pour simuler le crawl :

  • Googlebot smartphone (recommandé) : simule le crawl mobile-first, celui que Google utilise pour l'indexation principale
  • Googlebot desktop : utile pour comparer la version desktop si votre site sert un HTML différent
  • Mode comparaison : testez les deux User-Agents simultanément pour détecter les différences de contenu, de taille et de headers

Dans les options avancées, vous pouvez ajouter des headers HTTP personnalisés. Utile pour tester un site derrière un CDN, un reverse proxy, ou pour envoyer un cookie d'authentification spécifique.

Étape 3 : Consulter le rapport complet

Le rapport affiche :

  • KPI en tête de page : taille, score crawl budget, nombre de sous-ressources, temps de réponse, redirections client
  • Barre de progression : ratio visuel par rapport à la limite de 2 MB (ou 64 MB pour les PDF)
  • robots.txt : vérification que Googlebot est autorisé à crawler l'URL, crawl-delay et sitemaps détectés
  • Headers HTTP : Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag, et vos headers personnalisés envoyés
  • Analyse HTML : balises méta, headings, liens, données structurées, ressources inline
  • Sous-ressources : inventaire complet des scripts, CSS, images, fonts, iframes avec taille et statut
  • Crawl budget : score sur 100 avec détail des facteurs et impact individuel
  • Redirections client : meta refresh et JavaScript détectés dans le HTML
  • Empreinte de contenu : hash SHA-256 pour détecter les changements entre analyses
  • Simulation de troncature : si applicable, visualisez exactement où Googlebot couperait
  • Recommandations : actions concrètes priorisées par impact

Qu'est-ce que la limite de 2 MB de Googlebot ?

Google documente une limite de taille pour le crawl : Googlebot peut télécharger et indexer les premiers 2 097 152 octets (2 MB) du code source HTML d'une page. Au-delà, le contenu est tronqué. Pour les fichiers PDF, la limite est de 64 MB.

Ce que cela signifie concrètement :

Type de contenuLimiteConséquence si dépassement
HTML2 MB (2 097 152 octets)Troncature : contenu en fin de page ignoré
PDF64 MBTroncature du contenu textuel extrait

Attention : la limite HTML s'applique au contenu décompressé. La compression gzip/brotli ne change rien : un HTML de 3 MB compressé en transit sera toujours tronqué à 2 MB après décompression.

Pages à risque :

  • Pages e-commerce avec des centaines de produits listés en HTML
  • Landing pages avec du SVG inline ou du CSS embarqué volumineux
  • Pages avec du JSON-LD structuré très détaillé (ex: FAQ de 50+ questions)
  • Pages générées côté serveur avec du JavaScript inline abondant

Qu'analyse exactement l'outil ?

Analyse de taille

ÉlémentDescription
Taille brutePoids exact du HTML retourné par le serveur, en octets
Taille décompresséeTaille après décodage gzip/brotli (celle qui compte pour Googlebot)
Ratio limitePourcentage de la limite consommé (2 MB pour HTML, 64 MB pour PDF)
Type de contenuDétection automatique HTML, PDF ou autre avec badge visuel

Vérification robots.txt

ÉlémentCe que l'outil vérifie
Accès GooglebotL'URL testée est-elle autorisée ou bloquée par robots.txt ?
Agent matchéQuelle règle s'applique (Googlebot, *, etc.)
Crawl-delayDélai imposé entre les requêtes de crawl
SitemapsFichiers sitemap déclarés dans robots.txt

Headers HTTP

HeaderPourquoi c'est important
Content-TypeConfirme que le serveur renvoie bien du HTML (ou un PDF)
Content-EncodingIndique si la compression est active (gzip, br)
X-Robots-TagDétecte un éventuel noindex/nofollow au niveau HTTP
Cache-ControlConfiguration du cache qui impacte la fréquence de crawl
Headers personnalisésVos headers envoyés sont affichés pour confirmation

Analyse HTML

ÉlémentCe que l'outil vérifie
Balises métaPrésence et contenu de title, description, robots, canonical
StructureHiérarchie des headings (H1-H6) avec position en octets
LiensNombre de liens internes, externes et nofollow détectés
Données structuréesJSON-LD détecté avec taille et types identifiés
Ressources inlineScripts, styles, SVG et data URIs embarqués dans le HTML

Sous-ressources

ÉlémentCe que l'outil vérifie
ScriptsFichiers JavaScript externes chargés par la page
CSSFeuilles de style externes
ImagesImages référencées dans le HTML
FontsPolices web chargées
IframesContenus tiers embarqués
Ressources tiercesSous-ressources chargées depuis d'autres domaines
Erreurs de chargementRessources retournant une erreur HTTP (404, 500, etc.)

Score crawl budget

ÉlémentCe que l'outil évalue
Score globalNote sur 100, pondérée par l'importance de chaque facteur
Taille de la pageImpact du poids HTML sur le budget de crawl
Nombre de sous-ressourcesChaque requête consomme du budget
Ressources tiercesLes domaines externes ajoutent de la latence
Temps de réponseUne réponse lente réduit le nombre de pages crawlées
CompressionL'absence de compression gaspille la bande passante

Redirections côté client

ÉlémentCe que l'outil détecte
Meta refreshBalises <meta http-equiv="refresh"> avec URL et délai
JavaScriptPatterns window.location, document.location, location.href
Position dans le HTMLLocalisation en octets de la redirection détectée

Empreinte de contenu

ÉlémentDescription
Hash SHA-256Empreinte unique du contenu de la page
Détection de changementsComparez le hash entre deux analyses pour savoir si le contenu a changé
Comparaison mobile/desktopSi les deux versions ont le même hash, le contenu est identique

Comparaison mobile vs desktop

ÉlémentCe que l'outil compare
TailleDifférence de poids HTML entre les deux versions
HeadersDifférences de Content-Type, compression, cache, X-Robots-Tag
Balises métaTitle, description, canonical, robots différents ?
StructureNombre de headings, liens, données structurées
EmpreinteMême hash = contenu identique, hash différent = contenu distinct
VerdictSynthèse : identique, différences mineures ou critiques

Entrez votre URL ci-dessus pour obtenir l'analyse complète de votre page.


Cas d'usage concrets

Cas 1 : Page e-commerce avec des milliers de produits

Symptôme : Votre page catégorie liste 500 produits en HTML. Le bas de page (pagination, FAQ, liens vers les sous-catégories) n'apparaît pas dans les résultats Google.

Diagnostic avec l'outil : La page fait 3,2 MB de HTML. Googlebot tronque à 2 MB, perdant les 200 derniers produits, la FAQ et tous les liens de navigation en pied de page.

Action : Passer à une pagination avec chargement dynamique (lazy load), limiter le listing initial à 50 produits, déplacer la FAQ en haut de page.


Cas 2 : Score crawl budget faible à cause des sous-ressources

Symptôme : Google crawle peu de pages de votre site malgré un contenu régulièrement mis à jour. Vos nouvelles pages mettent des semaines à apparaître dans l'index.

Diagnostic avec l'outil : Chaque page charge 85 sous-ressources dont 40 scripts tiers (analytics, widgets, AB testing). Le score crawl budget est de 35/100. Les ressources tierces représentent 60 % des requêtes.

Action : Charger les scripts tiers en différé (defer/async), supprimer les scripts inutilisés, regrouper les fichiers CSS et JS, utiliser le lazy loading pour les images sous le fold.


Cas 3 : Redirection JavaScript invisible pour Googlebot

Symptôme : Votre page redirige correctement les utilisateurs vers la nouvelle URL, mais l'ancienne page reste indexée dans Google et la nouvelle n'apparaît pas.

Diagnostic avec l'outil : L'outil détecte un window.location.href dans le HTML. C'est une redirection JavaScript que Googlebot ne suit pas systématiquement. Aucune redirection HTTP (301/302) n'est configurée.

Action : Remplacer la redirection JavaScript par une redirection HTTP 301 côté serveur. Si une transition est nécessaire, ajouter une balise <link rel="canonical"> pointant vers la nouvelle URL.


Cas 4 : robots.txt bloque une section importante

Symptôme : Vos pages /fr/blog/ ne sont plus indexées depuis la mise à jour de votre robots.txt. Aucune erreur visible dans la Search Console.

Diagnostic avec l'outil : L'analyse robots.txt affiche "URL bloquée" avec la règle Disallow: /fr/ qui bloque tout le contenu francophone. Le robots.txt visait à bloquer /fr/admin/ mais la règle est trop large.

Action : Corriger robots.txt en remplaçant Disallow: /fr/ par Disallow: /fr/admin/. Vérifier avec l'outil que les pages importantes sont autorisées.


Cas 5 : Contenu différent entre mobile et desktop

Symptôme : Votre classement Google baisse alors que votre contenu desktop est complet et bien optimisé.

Diagnostic avec l'outil : Le mode comparaison révèle que la version smartphone sert un HTML allégé : la FAQ, les avis clients et 3 sections de contenu sont absents. Les empreintes SHA-256 sont différentes. Google indexe la version mobile, qui est incomplète.

Action : S'assurer que la version mobile contient le même contenu SEO que la version desktop. Utiliser le responsive design plutôt que du contenu conditionnel côté serveur.


Cas 6 : Migration avec perte de compression

Symptôme : Après une migration de serveur, vos pages chargent plus lentement et Google crawle moins de pages.

Diagnostic avec l'outil : Le header Content-Encoding est absent. Le serveur ne compresse plus le HTML. Le score crawl budget passe de 78/100 à 52/100.

Action : Réactiver la compression gzip/brotli sur le nouveau serveur. Vérifier la configuration nginx/Apache.

Testez vos pages avec l'outil ci-dessus pour identifier les problèmes spécifiques à votre site.


❓ FAQ - Questions fréquentes

Q : Quel est le poids moyen d'une page web ?

R : En 2025, le poids médian d'une page web est d'environ 2,5 MB (tous types de ressources confondus). Mais le HTML seul pèse généralement entre 50 KB et 500 KB. C'est la taille du HTML qui compte pour la limite de crawl Googlebot, pas le poids total incluant images, CSS et JavaScript.


Q : Que se passe-t-il quand une page dépasse 2 MB ?

R : Googlebot tronque le HTML au-delà de 2 097 152 octets. Tout le contenu après ce point est ignoré pour l'indexation. Concrètement : liens internes, FAQ structurée, texte SEO en bas de page ne sont plus pris en compte pour le classement dans les résultats de recherche.


Q : Qu'est-ce que le crawl budget ?

R : Le crawl budget est le nombre de pages que Googlebot peut crawler sur votre site dans un temps donné. Des pages lourdes avec beaucoup de sous-ressources consomment plus de ressources serveur et réseau, réduisant le nombre total de pages crawlées. Notre outil calcule un score sur 100 pour évaluer l'efficacité de chaque page.


Q : Pourquoi les sous-ressources impactent le crawl ?

R : Chaque sous-ressource (script, CSS, image, font) nécessite une requête HTTP supplémentaire. Googlebot a une capacité de crawl limitée par domaine. Une page chargeant 80+ sous-ressources consomme beaucoup plus de budget qu'une page en chargeant 20. Les ressources tierces ajoutent de la latence et des dépendances externes.


Q : Qu'est-ce qu'une redirection côté client ?

R : C'est une redirection effectuée par le navigateur via une balise meta refresh ou du JavaScript (window.location). Contrairement aux redirections HTTP (301, 302), Googlebot ne les suit pas toujours. Si votre seule redirection est côté client, la page de destination peut ne jamais être indexée.


Q : L'outil vérifie-t-il le fichier robots.txt ?

R : Oui. L'outil récupère automatiquement le robots.txt du domaine et vérifie si Googlebot est autorisé à crawler l'URL testée. Il détecte aussi le crawl-delay et les sitemaps déclarés. Si robots.txt bloque l'URL, un avertissement s'affiche, mais l'analyse de la page continue pour que vous puissiez voir le contenu quand même.


Q : L'outil fonctionne-t-il avec les fichiers PDF ?

R : Oui. L'outil détecte automatiquement les fichiers PDF et adapte la limite de taille : 64 MB au lieu de 2 MB pour le HTML. Un badge PDF s'affiche dans le rapport et l'analyse HTML est désactivée (non applicable aux PDF).


Q : À quoi sert l'empreinte de contenu (hash) ?

R : L'outil génère un hash SHA-256 du contenu de la page. Cette empreinte permet de détecter si le contenu a changé entre deux analyses, ou si les versions mobile et desktop servent un contenu identique. Utile pour surveiller les modifications non intentionnelles après un déploiement.


Q : Pourquoi choisir Googlebot smartphone plutôt que desktop ?

R : Google utilise le mobile-first indexing depuis 2019 : c'est la version smartphone de votre page qui est indexée en priorité. Testez avec le User-Agent smartphone pour voir exactement ce que Google indexe. Le mode comparaison permet de vérifier que les deux versions sont cohérentes.


Q : Pourquoi comparer les versions mobile et desktop ?

R : Google utilise le mobile-first indexing depuis 2019 : c'est la version smartphone qui est indexée en priorité. Si votre version mobile sert un contenu différent (moins de texte, FAQ absente, liens manquants), votre classement en souffre. Le mode comparaison détecte ces différences et les classe par sévérité.


Q : Comment réduire le poids d'une page web ?

R : Les actions les plus efficaces :

  • Supprimer le CSS/JS inline inutile - Déplacer dans des fichiers externes
  • Activer la compression - gzip ou brotli au niveau serveur
  • Minifier le HTML - Supprimer espaces et commentaires
  • Externaliser les SVG - Remplacer les SVG inline par des balises img
  • Lazy loading - Charger le contenu volumineux à la demande

Q : La compression gzip/brotli compte-t-elle dans la limite de 2 MB ?

R : Non. La limite de 2 MB s'applique au HTML décompressé. Un HTML de 3 MB compressé à 500 KB pendant le transfert réseau sera quand même tronqué à 2 MB une fois décompressé par Googlebot. La compression améliore la vitesse de transfert mais ne contourne pas la limite de taille.


Q : À quoi servent les headers HTTP personnalisés ?

R : Les headers personnalisés permettent de tester des configurations spécifiques : envoyer un cookie pour accéder à un site protégé, simuler un header Accept-Language particulier, ou reproduire les conditions d'un CDN. L'outil affiche les headers envoyés dans le rapport pour confirmation.


Outils complémentaires

OutilUtilité
Recherche DNSVérifier les enregistrements DNS de votre domaine
Vérificateur de propagation DNSConfirmer que vos modifications DNS sont propagées globalement
Audit de délivrabilité emailAnalyser MX, SPF, DKIM et DMARC de votre domaine
Vérificateur SPFAnalyser et valider votre enregistrement SPF
Hash GeneratorCalculer les empreintes SHA-256 pour comparer le contenu de vos pages
Redirection de domaineRemplacer les redirections JavaScript par des 301/302 HTTPS propres

Ressources utiles