Vai al contenuto principale

Analizzatore di crawl delle pagine web

Diagnosi completa del crawl Googlebot in pochi secondi

La tua pagina viene correttamente scansionata da Google? Misura il peso dell'HTML, verifica robots.txt, analizza le sotto-risorse e stima il tuo punteggio crawl budget. Rileva i redirect meta refresh, confronta mobile e desktop e genera un'impronta SHA-256 del contenuto. Diagnosi gratuita, risultati in pochi secondi.

Invia header personalizzati con la richiesta di scansione. User-Agent, Host e gli header di trasferimento non sono consentiti (max 10 header, 1 KB per valore).

Analisi della dimensione e troncamento

Misura il peso esatto dell'HTML decompresso. Visualizza il rapporto rispetto al limite di 2 MB (HTML) o 64 MB (PDF) con una barra di avanzamento.

Punteggio crawl budget

Ottieni un punteggio su 100 che valuta l'efficienza della tua pagina per il crawl. Identifica i fattori che consumano inutilmente il tuo budget.

Inventario delle sotto-risorse

Elenca tutti gli script, CSS, immagini, font e iframe caricati dalla pagina. Individua le risorse di terze parti e gli errori di caricamento.

Rilevamento dei redirect client

Identifica i redirect meta refresh e JavaScript invisibili per Googlebot. Questi redirect lato client possono bloccare l'indicizzazione.

Confronto mobile e desktop

Confronta le versioni smartphone e desktop della tua pagina. Rileva le differenze di dimensione, contenuto e header tra le due versioni.

Perché analizzare il crawl delle tue pagine web?

Se il tuo HTML supera i 2 MB, Googlebot lo tronca silenziosamente. Nessun errore in Search Console, nessun avviso: il contenuto in fondo alla pagina sparisce dall'indice di Google (fonte: documentazione Google). E questo è solo una parte del problema: robots.txt mal configurato, sotto-risorse eccessive, redirect JavaScript invisibili e compressione assente consumano il tuo crawl budget senza che tu lo sappia.

Cinque motivi per analizzare il crawl delle tue pagine:

  • Evitare il troncamento - Le pagine con HTML inline pesante (SVG, CSS, JSON-LD voluminosi) superano spesso il limite senza che tu lo sappia
  • Verificare l'accesso di Googlebot - Un robots.txt mal configurato può bloccare il crawl di pagine importanti
  • Ottimizzare il crawl budget - Pagine più leggere con meno sotto-risorse = più pagine scansionate da Google nel tempo a disposizione
  • Rilevare i redirect invisibili - I meta refresh e i redirect JavaScript non vengono sempre seguiti da Googlebot
  • Confrontare mobile e desktop - Il mobile-first indexing significa che la versione smartphone è quella che conta per l'indicizzazione

Come usare il page crawl checker in 3 passaggi

Passaggio 1: Inserire l'URL della pagina

Inserisci l'URL completo della pagina da analizzare nel campo qui sopra. Lo strumento accetta qualsiasi URL pubblico accessibile, compresi i file PDF:

https://www.captaindns.com/it

Testa prima le tue pagine più lunghe: pagine categoria, pagine prodotto con molte varianti, articoli del blog con numerose immagini inline.

Passaggio 2: Scegliere lo User-Agent e le opzioni

Seleziona lo User-Agent per simulare il crawl:

  • Googlebot smartphone (consigliato): simula il crawl mobile-first, quello che Google usa per l'indicizzazione principale
  • Googlebot desktop: utile per confrontare la versione desktop se il tuo sito serve un HTML diverso
  • Modalità confronto: testa entrambi gli User-Agent simultaneamente per rilevare differenze di contenuto, dimensione e header

Nelle opzioni avanzate puoi aggiungere header HTTP personalizzati. Utile per testare un sito dietro un CDN, un reverse proxy, o per inviare un cookie di autenticazione specifico.

Passaggio 3: Consultare il report completo

Il report mostra:

  • KPI in testa alla pagina: dimensione, punteggio crawl budget, numero di sotto-risorse, tempo di risposta, redirect client
  • Barra di avanzamento: rapporto visivo rispetto al limite di 2 MB (o 64 MB per i PDF)
  • robots.txt: verifica che Googlebot sia autorizzato a scansionare l'URL, crawl-delay e sitemap rilevate
  • Header HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag e i tuoi header personalizzati inviati
  • Analisi HTML: meta tag, heading, link, dati strutturati, risorse inline
  • Sotto-risorse: inventario completo di script, CSS, immagini, font, iframe con dimensione e stato
  • Crawl budget: punteggio su 100 con dettaglio dei fattori e impatto individuale
  • Redirect client: meta refresh e JavaScript rilevati nell'HTML
  • Impronta del contenuto: hash SHA-256 per rilevare i cambiamenti tra le analisi
  • Simulazione del troncamento: se applicabile, visualizza esattamente dove Googlebot taglierebbe
  • Raccomandazioni: azioni concrete con priorità in base all'impatto

Cos'è il limite di 2 MB di Googlebot?

Google documenta un limite di dimensione per il crawl: Googlebot può scaricare e indicizzare i primi 2.097.152 byte (2 MB) del codice sorgente HTML di una pagina. Oltre questa soglia, il contenuto viene troncato. Per i file PDF, il limite è di 64 MB.

Cosa significa in pratica:

Tipo di contenutoLimiteConseguenza in caso di superamento
HTML2 MB (2.097.152 byte)Troncamento: il contenuto in fondo alla pagina viene ignorato
PDF64 MBTroncamento del contenuto testuale estratto

Attenzione: il limite HTML si applica al contenuto decompresso. La compressione gzip/brotli non cambia nulla: un HTML di 3 MB compresso in transito verrà comunque troncato a 2 MB dopo la decompressione.

Pagine a rischio:

  • Pagine e-commerce con centinaia di prodotti elencati in HTML
  • Landing page con SVG inline o CSS incorporati voluminosi
  • Pagine con JSON-LD strutturato molto dettagliato (es: FAQ di oltre 50 domande)
  • Pagine generate lato server con JavaScript inline abbondante

Cosa analizza esattamente lo strumento?

Analisi della dimensione

ElementoDescrizione
Dimensione grezzaPeso esatto dell'HTML restituito dal server, in byte
Dimensione decompressaDimensione dopo la decodifica gzip/brotli (quella che conta per Googlebot)
Rapporto limitePercentuale del limite consumata (2 MB per HTML, 64 MB per PDF)
Tipo di contenutoRilevamento automatico HTML, PDF o altro con badge visivo

Verifica robots.txt

ElementoCosa verifica lo strumento
Accesso GooglebotL'URL testato è autorizzato o bloccato da robots.txt?
Agent corrispondenteQuale regola si applica (Googlebot, *, ecc.)
Crawl-delayRitardo imposto tra le richieste di crawl
SitemapFile sitemap dichiarati in robots.txt

Header HTTP

HeaderPerché è importante
Content-TypeConferma che il server restituisca effettivamente HTML (o un PDF)
Content-EncodingIndica se la compressione è attiva (gzip, br)
X-Robots-TagRileva un eventuale noindex/nofollow a livello HTTP
Cache-ControlConfigurazione della cache che impatta la frequenza di crawl
Header personalizzatiI tuoi header inviati vengono mostrati per conferma

Analisi HTML

ElementoCosa verifica lo strumento
Meta tagPresenza e contenuto di title, description, robots, canonical
StrutturaGerarchia degli heading (H1-H6) con posizione in byte
LinkNumero di link interni, esterni e nofollow rilevati
Dati strutturatiJSON-LD rilevato con dimensione e tipi identificati
Risorse inlineScript, stili, SVG e data URI incorporati nell'HTML

Sotto-risorse

ElementoCosa verifica lo strumento
ScriptFile JavaScript esterni caricati dalla pagina
CSSFogli di stile esterni
ImmaginiImmagini referenziate nell'HTML
FontWeb font caricati
IframeContenuti di terze parti incorporati
Risorse di terze partiSotto-risorse caricate da altri domini
Errori di caricamentoRisorse che restituiscono un errore HTTP (404, 500, ecc.)

Punteggio crawl budget

ElementoCosa valuta lo strumento
Punteggio globaleVoto su 100, ponderato in base all'importanza di ciascun fattore
Dimensione della paginaImpatto del peso HTML sul budget di crawl
Numero di sotto-risorseOgni richiesta consuma budget
Risorse di terze partiI domini esterni aggiungono latenza
Tempo di rispostaUna risposta lenta riduce il numero di pagine scansionate
CompressioneL'assenza di compressione spreca larghezza di banda

Redirect lato client

ElementoCosa rileva lo strumento
Meta refreshTag <meta http-equiv="refresh"> con URL e ritardo
JavaScriptPattern window.location, document.location, location.href
Posizione nell'HTMLLocalizzazione in byte del redirect rilevato

Impronta del contenuto

ElementoDescrizione
Hash SHA-256Impronta unica del contenuto della pagina
Rilevamento dei cambiamentiConfronta l'hash tra due analisi per sapere se il contenuto è cambiato
Confronto mobile/desktopSe le due versioni hanno lo stesso hash, il contenuto è identico

Confronto mobile e desktop

ElementoCosa confronta lo strumento
DimensioneDifferenza di peso HTML tra le due versioni
HeaderDifferenze di Content-Type, compressione, cache, X-Robots-Tag
Meta tagTitle, description, canonical, robots diversi?
StrutturaNumero di heading, link, dati strutturati
ImprontaStesso hash = contenuto identico, hash diverso = contenuto distinto
VerdettoSintesi: identico, differenze minori o critiche

Inserisci il tuo URL qui sopra per ottenere l'analisi completa della tua pagina.


Casi d'uso reali

Caso 1: Pagina e-commerce con migliaia di prodotti

Sintomo: La tua pagina categoria elenca 500 prodotti in HTML. Il fondo pagina (paginazione, FAQ, link alle sottocategorie) non appare nei risultati Google.

Diagnosi con lo strumento: La pagina pesa 3,2 MB di HTML. Googlebot tronca a 2 MB, perdendo gli ultimi 200 prodotti, la FAQ e tutti i link di navigazione nel footer.

Azione: Passare a una paginazione con caricamento dinamico (lazy load), limitare il listing iniziale a 50 prodotti, spostare la FAQ in alto nella pagina.


Caso 2: Punteggio crawl budget basso a causa delle sotto-risorse

Sintomo: Google scansiona poche pagine del tuo sito nonostante contenuti aggiornati regolarmente. Le tue nuove pagine impiegano settimane ad apparire nell'indice.

Diagnosi con lo strumento: Ogni pagina carica 85 sotto-risorse di cui 40 script di terze parti (analytics, widget, AB testing). Il punteggio crawl budget è 35/100. Le risorse di terze parti rappresentano il 60% delle richieste.

Azione: Caricare gli script di terze parti in differita (defer/async), rimuovere gli script inutilizzati, raggruppare i file CSS e JS, usare il lazy loading per le immagini sotto il fold.


Caso 3: Redirect JavaScript invisibile per Googlebot

Sintomo: La tua pagina reindirizza correttamente gli utenti verso il nuovo URL, ma la vecchia pagina resta indicizzata su Google e la nuova non appare.

Diagnosi con lo strumento: Lo strumento rileva un window.location.href nell'HTML. È un redirect JavaScript che Googlebot non segue sistematicamente. Nessun redirect HTTP (301/302) è configurato.

Azione: Sostituire il redirect JavaScript con un redirect HTTP 301 lato server. Se è necessaria una transizione, aggiungere un tag <link rel="canonical"> che punti al nuovo URL.


Caso 4: robots.txt blocca una sezione importante

Sintomo: Le tue pagine /it/blog/ non sono più indicizzate dall'aggiornamento del tuo robots.txt. Nessun errore visibile in Search Console.

Diagnosi con lo strumento: L'analisi robots.txt mostra "URL bloccato" con la regola Disallow: /it/ che blocca tutto il contenuto italiano. Il robots.txt mirava a bloccare /it/admin/ ma la regola è troppo ampia.

Azione: Correggere robots.txt sostituendo Disallow: /it/ con Disallow: /it/admin/. Verificare con lo strumento che le pagine importanti siano autorizzate.


Caso 5: Contenuto diverso tra mobile e desktop

Sintomo: Il tuo posizionamento su Google cala nonostante il contenuto desktop sia completo e ben ottimizzato.

Diagnosi con lo strumento: La modalità confronto rivela che la versione smartphone serve un HTML alleggerito: la FAQ, le recensioni e 3 sezioni di contenuto sono assenti. Le impronte SHA-256 sono diverse. Google indicizza la versione mobile, che è incompleta.

Azione: Assicurarsi che la versione mobile contenga lo stesso contenuto SEO della versione desktop. Usare il responsive design anziché contenuto condizionale lato server.


Caso 6: Migrazione con perdita della compressione

Sintomo: Dopo una migrazione del server, le tue pagine si caricano più lentamente e Google scansiona meno pagine.

Diagnosi con lo strumento: L'header Content-Encoding è assente. Il server non comprime più l'HTML. Il punteggio crawl budget passa da 78/100 a 52/100.

Azione: Riattivare la compressione gzip/brotli sul nuovo server. Verificare la configurazione nginx/Apache.

Testa le tue pagine con lo strumento qui sopra per identificare i problemi specifici del tuo sito.


❓ FAQ - Domande frequenti

D: Qual è il peso medio di una pagina web?

R: Nel 2025, il peso mediano di una pagina web è di circa 2,5 MB (tutte le risorse incluse). Ma il solo HTML pesa generalmente tra 50 KB e 500 KB. È la dimensione dell'HTML che conta per il limite di crawl di Googlebot, non il peso totale comprensivo di immagini, CSS e JavaScript.


D: Cosa succede quando una pagina supera i 2 MB?

R: Googlebot tronca l'HTML oltre i 2.097.152 byte. Tutto il contenuto dopo questo punto viene ignorato per l'indicizzazione. In concreto: link interni, FAQ strutturate, testo SEO in fondo alla pagina non vengono più considerati per il posizionamento nei risultati di ricerca.


D: Cos'è il crawl budget?

R: Il crawl budget è il numero di pagine che Googlebot può scansionare sul tuo sito in un dato periodo. Pagine pesanti con molte sotto-risorse consumano più risorse server e di rete, riducendo il numero totale di pagine scansionate. Il nostro strumento calcola un punteggio su 100 per valutare l'efficienza di ciascuna pagina.


D: Perché le sotto-risorse impattano il crawl?

R: Ogni sotto-risorsa (script, CSS, immagine, font) richiede una richiesta HTTP aggiuntiva. Googlebot ha una capacità di crawl limitata per dominio. Una pagina che carica oltre 80 sotto-risorse consuma molto più budget di una che ne carica 20. Le risorse di terze parti aggiungono latenza e dipendenze esterne.


D: Cos'è un redirect lato client?

R: È un reindirizzamento effettuato dal browser tramite un tag meta refresh o JavaScript (window.location). A differenza dei redirect HTTP (301, 302), Googlebot non li segue sempre. Se il tuo unico redirect è lato client, la pagina di destinazione potrebbe non essere mai indicizzata.


D: Lo strumento verifica il file robots.txt?

R: Sì. Lo strumento recupera automaticamente il robots.txt del dominio e verifica se Googlebot è autorizzato a scansionare l'URL testato. Rileva anche il crawl-delay e le sitemap dichiarate. Se robots.txt blocca l'URL, viene mostrato un avviso, ma l'analisi della pagina prosegue per permetterti di vedere comunque il contenuto.


D: Lo strumento funziona con i file PDF?

R: Sì. Lo strumento rileva automaticamente i file PDF e adatta il limite di dimensione: 64 MB anziché 2 MB per l'HTML. Nel report viene mostrato un badge PDF e l'analisi HTML è disattivata (non applicabile ai PDF).


D: A cosa serve l'impronta del contenuto (hash)?

R: Lo strumento genera un hash SHA-256 del contenuto della pagina. Questa impronta permette di rilevare se il contenuto è cambiato tra due analisi, o se le versioni mobile e desktop servono un contenuto identico. Utile per monitorare le modifiche non intenzionali dopo un deploy.


D: Perché confrontare le versioni mobile e desktop?

R: Google utilizza il mobile-first indexing dal 2019: è la versione smartphone a essere indicizzata per prima. Se la tua versione mobile serve un contenuto diverso (meno testo, FAQ assente, link mancanti), il tuo posizionamento ne risente. La modalità confronto rileva queste differenze e le classifica per gravità.


D: Perché scegliere Googlebot smartphone invece di desktop?

R: Google utilizza il mobile-first indexing dal 2019: è la versione smartphone della tua pagina a essere indicizzata per prima. Testa con lo User-Agent smartphone per vedere esattamente cosa Google indicizza. La modalità confronto permette di verificare che le due versioni siano coerenti.


D: Come ridurre il peso di una pagina web?

R: Le azioni più efficaci:

  • Eliminare CSS/JS inline inutili - Spostarli in file esterni
  • Attivare la compressione - gzip o brotli a livello server
  • Minificare l'HTML - Rimuovere spazi e commenti
  • Esternalizzare gli SVG - Sostituire gli SVG inline con tag img
  • Lazy loading - Caricare i contenuti voluminosi on demand

D: La compressione gzip/brotli rientra nel limite di 2 MB?

R: No. Il limite di 2 MB si applica all'HTML decompresso. Un HTML di 3 MB compresso a 500 KB durante il trasferimento di rete verrà comunque troncato a 2 MB una volta decompresso da Googlebot. La compressione migliora la velocità di trasferimento ma non aggira il limite di dimensione.


D: A cosa servono gli header HTTP personalizzati?

R: Gli header personalizzati permettono di testare configurazioni specifiche: inviare un cookie per accedere a un sito protetto, simulare un header Accept-Language particolare, o riprodurre le condizioni di un CDN. Lo strumento mostra gli header inviati nel report per conferma.


Strumenti complementari

StrumentoUtilità
Ricerca DNSVerificare i record DNS del tuo dominio
Test di propagazione DNSConfermare che le tue modifiche DNS sono propagate a livello globale
Audit di deliverability emailAnalizzare MX, SPF, DKIM e DMARC del tuo dominio
Verifica SPFAnalizzare e validare il tuo record SPF
Hash GeneratorCalcolare impronte SHA-256 per confrontare i contenuti delle pagine
Reindirizzamento dominioSostituire i redirect JavaScript con redirect 301/302 HTTPS corretti

Risorse utili