Perché analizzare il crawl delle tue pagine web?
Se il tuo HTML supera i 2 MB, Googlebot lo tronca silenziosamente. Nessun errore in Search Console, nessun avviso: il contenuto in fondo alla pagina sparisce dall'indice di Google (fonte: documentazione Google). E questo è solo una parte del problema: robots.txt mal configurato, sotto-risorse eccessive, redirect JavaScript invisibili e compressione assente consumano il tuo crawl budget senza che tu lo sappia.
Cinque motivi per analizzare il crawl delle tue pagine:
- Evitare il troncamento - Le pagine con HTML inline pesante (SVG, CSS, JSON-LD voluminosi) superano spesso il limite senza che tu lo sappia
- Verificare l'accesso di Googlebot - Un robots.txt mal configurato può bloccare il crawl di pagine importanti
- Ottimizzare il crawl budget - Pagine più leggere con meno sotto-risorse = più pagine scansionate da Google nel tempo a disposizione
- Rilevare i redirect invisibili - I meta refresh e i redirect JavaScript non vengono sempre seguiti da Googlebot
- Confrontare mobile e desktop - Il mobile-first indexing significa che la versione smartphone è quella che conta per l'indicizzazione
Come usare il page crawl checker in 3 passaggi
Passaggio 1: Inserire l'URL della pagina
Inserisci l'URL completo della pagina da analizzare nel campo qui sopra. Lo strumento accetta qualsiasi URL pubblico accessibile, compresi i file PDF:
https://www.captaindns.com/it
Testa prima le tue pagine più lunghe: pagine categoria, pagine prodotto con molte varianti, articoli del blog con numerose immagini inline.
Passaggio 2: Scegliere lo User-Agent e le opzioni
Seleziona lo User-Agent per simulare il crawl:
- Googlebot smartphone (consigliato): simula il crawl mobile-first, quello che Google usa per l'indicizzazione principale
- Googlebot desktop: utile per confrontare la versione desktop se il tuo sito serve un HTML diverso
- Modalità confronto: testa entrambi gli User-Agent simultaneamente per rilevare differenze di contenuto, dimensione e header
Nelle opzioni avanzate puoi aggiungere header HTTP personalizzati. Utile per testare un sito dietro un CDN, un reverse proxy, o per inviare un cookie di autenticazione specifico.
Passaggio 3: Consultare il report completo
Il report mostra:
- KPI in testa alla pagina: dimensione, punteggio crawl budget, numero di sotto-risorse, tempo di risposta, redirect client
- Barra di avanzamento: rapporto visivo rispetto al limite di 2 MB (o 64 MB per i PDF)
- robots.txt: verifica che Googlebot sia autorizzato a scansionare l'URL, crawl-delay e sitemap rilevate
- Header HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag e i tuoi header personalizzati inviati
- Analisi HTML: meta tag, heading, link, dati strutturati, risorse inline
- Sotto-risorse: inventario completo di script, CSS, immagini, font, iframe con dimensione e stato
- Crawl budget: punteggio su 100 con dettaglio dei fattori e impatto individuale
- Redirect client: meta refresh e JavaScript rilevati nell'HTML
- Impronta del contenuto: hash SHA-256 per rilevare i cambiamenti tra le analisi
- Simulazione del troncamento: se applicabile, visualizza esattamente dove Googlebot taglierebbe
- Raccomandazioni: azioni concrete con priorità in base all'impatto
Cos'è il limite di 2 MB di Googlebot?
Google documenta un limite di dimensione per il crawl: Googlebot può scaricare e indicizzare i primi 2.097.152 byte (2 MB) del codice sorgente HTML di una pagina. Oltre questa soglia, il contenuto viene troncato. Per i file PDF, il limite è di 64 MB.
Cosa significa in pratica:
| Tipo di contenuto | Limite | Conseguenza in caso di superamento |
|---|---|---|
| HTML | 2 MB (2.097.152 byte) | Troncamento: il contenuto in fondo alla pagina viene ignorato |
| 64 MB | Troncamento del contenuto testuale estratto |
Attenzione: il limite HTML si applica al contenuto decompresso. La compressione gzip/brotli non cambia nulla: un HTML di 3 MB compresso in transito verrà comunque troncato a 2 MB dopo la decompressione.
Pagine a rischio:
- Pagine e-commerce con centinaia di prodotti elencati in HTML
- Landing page con SVG inline o CSS incorporati voluminosi
- Pagine con JSON-LD strutturato molto dettagliato (es: FAQ di oltre 50 domande)
- Pagine generate lato server con JavaScript inline abbondante
Cosa analizza esattamente lo strumento?
Analisi della dimensione
| Elemento | Descrizione |
|---|---|
| Dimensione grezza | Peso esatto dell'HTML restituito dal server, in byte |
| Dimensione decompressa | Dimensione dopo la decodifica gzip/brotli (quella che conta per Googlebot) |
| Rapporto limite | Percentuale del limite consumata (2 MB per HTML, 64 MB per PDF) |
| Tipo di contenuto | Rilevamento automatico HTML, PDF o altro con badge visivo |
Verifica robots.txt
| Elemento | Cosa verifica lo strumento |
|---|---|
| Accesso Googlebot | L'URL testato è autorizzato o bloccato da robots.txt? |
| Agent corrispondente | Quale regola si applica (Googlebot, *, ecc.) |
| Crawl-delay | Ritardo imposto tra le richieste di crawl |
| Sitemap | File sitemap dichiarati in robots.txt |
Header HTTP
| Header | Perché è importante |
|---|---|
| Content-Type | Conferma che il server restituisca effettivamente HTML (o un PDF) |
| Content-Encoding | Indica se la compressione è attiva (gzip, br) |
| X-Robots-Tag | Rileva un eventuale noindex/nofollow a livello HTTP |
| Cache-Control | Configurazione della cache che impatta la frequenza di crawl |
| Header personalizzati | I tuoi header inviati vengono mostrati per conferma |
Analisi HTML
| Elemento | Cosa verifica lo strumento |
|---|---|
| Meta tag | Presenza e contenuto di title, description, robots, canonical |
| Struttura | Gerarchia degli heading (H1-H6) con posizione in byte |
| Link | Numero di link interni, esterni e nofollow rilevati |
| Dati strutturati | JSON-LD rilevato con dimensione e tipi identificati |
| Risorse inline | Script, stili, SVG e data URI incorporati nell'HTML |
Sotto-risorse
| Elemento | Cosa verifica lo strumento |
|---|---|
| Script | File JavaScript esterni caricati dalla pagina |
| CSS | Fogli di stile esterni |
| Immagini | Immagini referenziate nell'HTML |
| Font | Web font caricati |
| Iframe | Contenuti di terze parti incorporati |
| Risorse di terze parti | Sotto-risorse caricate da altri domini |
| Errori di caricamento | Risorse che restituiscono un errore HTTP (404, 500, ecc.) |
Punteggio crawl budget
| Elemento | Cosa valuta lo strumento |
|---|---|
| Punteggio globale | Voto su 100, ponderato in base all'importanza di ciascun fattore |
| Dimensione della pagina | Impatto del peso HTML sul budget di crawl |
| Numero di sotto-risorse | Ogni richiesta consuma budget |
| Risorse di terze parti | I domini esterni aggiungono latenza |
| Tempo di risposta | Una risposta lenta riduce il numero di pagine scansionate |
| Compressione | L'assenza di compressione spreca larghezza di banda |
Redirect lato client
| Elemento | Cosa rileva lo strumento |
|---|---|
| Meta refresh | Tag <meta http-equiv="refresh"> con URL e ritardo |
| JavaScript | Pattern window.location, document.location, location.href |
| Posizione nell'HTML | Localizzazione in byte del redirect rilevato |
Impronta del contenuto
| Elemento | Descrizione |
|---|---|
| Hash SHA-256 | Impronta unica del contenuto della pagina |
| Rilevamento dei cambiamenti | Confronta l'hash tra due analisi per sapere se il contenuto è cambiato |
| Confronto mobile/desktop | Se le due versioni hanno lo stesso hash, il contenuto è identico |
Confronto mobile e desktop
| Elemento | Cosa confronta lo strumento |
|---|---|
| Dimensione | Differenza di peso HTML tra le due versioni |
| Header | Differenze di Content-Type, compressione, cache, X-Robots-Tag |
| Meta tag | Title, description, canonical, robots diversi? |
| Struttura | Numero di heading, link, dati strutturati |
| Impronta | Stesso hash = contenuto identico, hash diverso = contenuto distinto |
| Verdetto | Sintesi: identico, differenze minori o critiche |
Inserisci il tuo URL qui sopra per ottenere l'analisi completa della tua pagina.
Casi d'uso reali
Caso 1: Pagina e-commerce con migliaia di prodotti
Sintomo: La tua pagina categoria elenca 500 prodotti in HTML. Il fondo pagina (paginazione, FAQ, link alle sottocategorie) non appare nei risultati Google.
Diagnosi con lo strumento: La pagina pesa 3,2 MB di HTML. Googlebot tronca a 2 MB, perdendo gli ultimi 200 prodotti, la FAQ e tutti i link di navigazione nel footer.
Azione: Passare a una paginazione con caricamento dinamico (lazy load), limitare il listing iniziale a 50 prodotti, spostare la FAQ in alto nella pagina.
Caso 2: Punteggio crawl budget basso a causa delle sotto-risorse
Sintomo: Google scansiona poche pagine del tuo sito nonostante contenuti aggiornati regolarmente. Le tue nuove pagine impiegano settimane ad apparire nell'indice.
Diagnosi con lo strumento: Ogni pagina carica 85 sotto-risorse di cui 40 script di terze parti (analytics, widget, AB testing). Il punteggio crawl budget è 35/100. Le risorse di terze parti rappresentano il 60% delle richieste.
Azione: Caricare gli script di terze parti in differita (defer/async), rimuovere gli script inutilizzati, raggruppare i file CSS e JS, usare il lazy loading per le immagini sotto il fold.
Caso 3: Redirect JavaScript invisibile per Googlebot
Sintomo: La tua pagina reindirizza correttamente gli utenti verso il nuovo URL, ma la vecchia pagina resta indicizzata su Google e la nuova non appare.
Diagnosi con lo strumento: Lo strumento rileva un window.location.href nell'HTML. È un redirect JavaScript che Googlebot non segue sistematicamente. Nessun redirect HTTP (301/302) è configurato.
Azione: Sostituire il redirect JavaScript con un redirect HTTP 301 lato server. Se è necessaria una transizione, aggiungere un tag <link rel="canonical"> che punti al nuovo URL.
Caso 4: robots.txt blocca una sezione importante
Sintomo: Le tue pagine /it/blog/ non sono più indicizzate dall'aggiornamento del tuo robots.txt. Nessun errore visibile in Search Console.
Diagnosi con lo strumento: L'analisi robots.txt mostra "URL bloccato" con la regola Disallow: /it/ che blocca tutto il contenuto italiano. Il robots.txt mirava a bloccare /it/admin/ ma la regola è troppo ampia.
Azione: Correggere robots.txt sostituendo Disallow: /it/ con Disallow: /it/admin/. Verificare con lo strumento che le pagine importanti siano autorizzate.
Caso 5: Contenuto diverso tra mobile e desktop
Sintomo: Il tuo posizionamento su Google cala nonostante il contenuto desktop sia completo e ben ottimizzato.
Diagnosi con lo strumento: La modalità confronto rivela che la versione smartphone serve un HTML alleggerito: la FAQ, le recensioni e 3 sezioni di contenuto sono assenti. Le impronte SHA-256 sono diverse. Google indicizza la versione mobile, che è incompleta.
Azione: Assicurarsi che la versione mobile contenga lo stesso contenuto SEO della versione desktop. Usare il responsive design anziché contenuto condizionale lato server.
Caso 6: Migrazione con perdita della compressione
Sintomo: Dopo una migrazione del server, le tue pagine si caricano più lentamente e Google scansiona meno pagine.
Diagnosi con lo strumento: L'header Content-Encoding è assente. Il server non comprime più l'HTML. Il punteggio crawl budget passa da 78/100 a 52/100.
Azione: Riattivare la compressione gzip/brotli sul nuovo server. Verificare la configurazione nginx/Apache.
Testa le tue pagine con lo strumento qui sopra per identificare i problemi specifici del tuo sito.
❓ FAQ - Domande frequenti
D: Qual è il peso medio di una pagina web?
R: Nel 2025, il peso mediano di una pagina web è di circa 2,5 MB (tutte le risorse incluse). Ma il solo HTML pesa generalmente tra 50 KB e 500 KB. È la dimensione dell'HTML che conta per il limite di crawl di Googlebot, non il peso totale comprensivo di immagini, CSS e JavaScript.
D: Cosa succede quando una pagina supera i 2 MB?
R: Googlebot tronca l'HTML oltre i 2.097.152 byte. Tutto il contenuto dopo questo punto viene ignorato per l'indicizzazione. In concreto: link interni, FAQ strutturate, testo SEO in fondo alla pagina non vengono più considerati per il posizionamento nei risultati di ricerca.
D: Cos'è il crawl budget?
R: Il crawl budget è il numero di pagine che Googlebot può scansionare sul tuo sito in un dato periodo. Pagine pesanti con molte sotto-risorse consumano più risorse server e di rete, riducendo il numero totale di pagine scansionate. Il nostro strumento calcola un punteggio su 100 per valutare l'efficienza di ciascuna pagina.
D: Perché le sotto-risorse impattano il crawl?
R: Ogni sotto-risorsa (script, CSS, immagine, font) richiede una richiesta HTTP aggiuntiva. Googlebot ha una capacità di crawl limitata per dominio. Una pagina che carica oltre 80 sotto-risorse consuma molto più budget di una che ne carica 20. Le risorse di terze parti aggiungono latenza e dipendenze esterne.
D: Cos'è un redirect lato client?
R: È un reindirizzamento effettuato dal browser tramite un tag meta refresh o JavaScript (window.location). A differenza dei redirect HTTP (301, 302), Googlebot non li segue sempre. Se il tuo unico redirect è lato client, la pagina di destinazione potrebbe non essere mai indicizzata.
D: Lo strumento verifica il file robots.txt?
R: Sì. Lo strumento recupera automaticamente il robots.txt del dominio e verifica se Googlebot è autorizzato a scansionare l'URL testato. Rileva anche il crawl-delay e le sitemap dichiarate. Se robots.txt blocca l'URL, viene mostrato un avviso, ma l'analisi della pagina prosegue per permetterti di vedere comunque il contenuto.
D: Lo strumento funziona con i file PDF?
R: Sì. Lo strumento rileva automaticamente i file PDF e adatta il limite di dimensione: 64 MB anziché 2 MB per l'HTML. Nel report viene mostrato un badge PDF e l'analisi HTML è disattivata (non applicabile ai PDF).
D: A cosa serve l'impronta del contenuto (hash)?
R: Lo strumento genera un hash SHA-256 del contenuto della pagina. Questa impronta permette di rilevare se il contenuto è cambiato tra due analisi, o se le versioni mobile e desktop servono un contenuto identico. Utile per monitorare le modifiche non intenzionali dopo un deploy.
D: Perché confrontare le versioni mobile e desktop?
R: Google utilizza il mobile-first indexing dal 2019: è la versione smartphone a essere indicizzata per prima. Se la tua versione mobile serve un contenuto diverso (meno testo, FAQ assente, link mancanti), il tuo posizionamento ne risente. La modalità confronto rileva queste differenze e le classifica per gravità.
D: Perché scegliere Googlebot smartphone invece di desktop?
R: Google utilizza il mobile-first indexing dal 2019: è la versione smartphone della tua pagina a essere indicizzata per prima. Testa con lo User-Agent smartphone per vedere esattamente cosa Google indicizza. La modalità confronto permette di verificare che le due versioni siano coerenti.
D: Come ridurre il peso di una pagina web?
R: Le azioni più efficaci:
- Eliminare CSS/JS inline inutili - Spostarli in file esterni
- Attivare la compressione - gzip o brotli a livello server
- Minificare l'HTML - Rimuovere spazi e commenti
- Esternalizzare gli SVG - Sostituire gli SVG inline con tag
img - Lazy loading - Caricare i contenuti voluminosi on demand
D: La compressione gzip/brotli rientra nel limite di 2 MB?
R: No. Il limite di 2 MB si applica all'HTML decompresso. Un HTML di 3 MB compresso a 500 KB durante il trasferimento di rete verrà comunque troncato a 2 MB una volta decompresso da Googlebot. La compressione migliora la velocità di trasferimento ma non aggira il limite di dimensione.
D: A cosa servono gli header HTTP personalizzati?
R: Gli header personalizzati permettono di testare configurazioni specifiche: inviare un cookie per accedere a un sito protetto, simulare un header Accept-Language particolare, o riprodurre le condizioni di un CDN. Lo strumento mostra gli header inviati nel report per conferma.
Strumenti complementari
| Strumento | Utilità |
|---|---|
| Ricerca DNS | Verificare i record DNS del tuo dominio |
| Test di propagazione DNS | Confermare che le tue modifiche DNS sono propagate a livello globale |
| Audit di deliverability email | Analizzare MX, SPF, DKIM e DMARC del tuo dominio |
| Verifica SPF | Analizzare e validare il tuo record SPF |
| Hash Generator | Calcolare impronte SHA-256 per confrontare i contenuti delle pagine |
| Reindirizzamento dominio | Sostituire i redirect JavaScript con redirect 301/302 HTTPS corretti |
Risorse utili
- Google - Documentazione sui limiti di crawl (documentazione ufficiale Googlebot)
- Google - Mobile-first indexing (guida al mobile-first indexing)
- Google - Crawl budget management (gestione del crawl budget per siti di grandi dimensioni)
- HTTP Archive - State of the Web (statistiche sul peso delle pagine web)
- Web.dev - Optimize Largest Contentful Paint (ottimizzazione delle prestazioni web)