Page Crawl Checker - Crawl Googlebot

¿Por qué analizar el crawl de tus páginas web?

Si tu HTML supera los 2 MB, Googlebot lo trunca silenciosamente. Sin errores en Search Console, sin avisos: el contenido al final de la página desaparece del índice de Google (fuente: documentación de Google). Y eso es solo una parte del problema: un robots.txt mal configurado, subrecursos excesivos, redirecciones JavaScript invisibles y una compresión deficiente consumen tu crawl budget sin que lo sepas.

Cinco razones para analizar el crawl de tus páginas:

Evitar el truncamiento - Las páginas con HTML inline pesado (SVG, CSS, JSON-LD voluminoso) suelen superar el límite sin que lo sepas
Verificar el acceso de Googlebot - Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes
Optimizar el crawl budget - Páginas más ligeras con menos subrecursos = más páginas rastreadas por Google en el tiempo asignado
Detectar las redirecciones invisibles - Las meta refresh y redirecciones JavaScript no siempre son seguidas por Googlebot
Comparar móvil vs escritorio - El mobile-first indexing significa que la versión smartphone es la que cuenta para la indexación

Cómo usar el page crawl checker en 3 pasos

Paso 1: Introducir la URL de la página

Introduce la URL completa de la página a analizar en el campo de arriba. La herramienta acepta cualquier URL pública accesible, incluidos archivos PDF:

https://www.captaindns.com/es

Prueba primero tus páginas más largas: páginas de categorías, páginas de productos con muchas variantes, artículos de blog con muchas imágenes inline.

Paso 2: Elegir el User-Agent y las opciones

Selecciona el User-Agent para simular el crawl:

Googlebot smartphone (recomendado): simula el crawl mobile-first, el que Google utiliza para la indexación principal
Googlebot desktop: útil para comparar la versión de escritorio si tu sitio sirve un HTML diferente
Modo comparación: prueba ambos User-Agents simultáneamente para detectar diferencias de contenido, tamaño y headers

En las opciones avanzadas, puedes añadir headers HTTP personalizados. Útil para probar un sitio detrás de un CDN, un reverse proxy, o para enviar una cookie de autenticación específica.

Paso 3: Consultar el informe completo

El informe muestra:

KPI en la parte superior: tamaño, puntuación crawl budget, número de subrecursos, tiempo de respuesta, redirecciones cliente
Barra de progreso: ratio visual respecto al límite de 2 MB (o 64 MB para los PDF)
robots.txt: verificación de que Googlebot tiene permitido rastrear la URL, crawl-delay y sitemaps detectados
Headers HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag, y tus headers personalizados enviados
Análisis HTML: etiquetas meta, encabezados, enlaces, datos estructurados, recursos inline
Subrecursos: inventario completo de scripts, CSS, imágenes, fuentes, iframes con tamaño y estado
Crawl budget: puntuación sobre 100 con detalle de los factores e impacto individual
Redirecciones cliente: meta refresh y JavaScript detectados en el HTML
Huella de contenido: hash SHA-256 para detectar cambios entre análisis
Simulación de truncamiento: si aplica, visualiza exactamente dónde cortaría Googlebot
Recomendaciones: acciones concretas priorizadas por impacto

¿Qué es el límite de 2 MB de Googlebot?

Google documenta un límite de tamaño para el crawl: Googlebot puede descargar e indexar los primeros 2 097 152 bytes (2 MB) del código fuente HTML de una página. Más allá, el contenido se trunca. Para los archivos PDF, el límite es de 64 MB.

Lo que esto significa en la práctica:

Tipo de contenido	Límite	Consecuencia si se supera
HTML	2 MB (2 097 152 bytes)	Truncamiento: contenido al final de la página ignorado
PDF	64 MB	Truncamiento del contenido textual extraído

Atención: el límite HTML se aplica al contenido descomprimido. La compresión gzip/brotli no cambia nada: un HTML de 3 MB comprimido en tránsito será truncado igualmente a 2 MB tras la descompresión.

Páginas en riesgo:

Páginas e-commerce con cientos de productos listados en HTML
Landing pages con SVG inline o CSS embebido voluminoso
Páginas con JSON-LD estructurado muy detallado (ej.: FAQ de más de 50 preguntas)
Páginas generadas del lado del servidor con JavaScript inline abundante

¿Qué analiza exactamente la herramienta?

Análisis de tamaño

Elemento	Descripción
Tamaño bruto	Peso exacto del HTML devuelto por el servidor, en bytes
Tamaño descomprimido	Tamaño tras decodificar gzip/brotli (el que cuenta para Googlebot)
Ratio del límite	Porcentaje del límite consumido (2 MB para HTML, 64 MB para PDF)
Tipo de contenido	Detección automática HTML, PDF u otro con badge visual

Verificación de robots.txt

Elemento	Lo que verifica la herramienta
Acceso de Googlebot	¿La URL analizada está permitida o bloqueada por robots.txt?
Agente coincidente	Qué regla se aplica (Googlebot, *, etc.)
Crawl-delay	Retardo impuesto entre las peticiones de crawl
Sitemaps	Archivos sitemap declarados en robots.txt

Headers HTTP

Header	Por qué es importante
Content-Type	Confirma que el servidor devuelve HTML (o un PDF)
Content-Encoding	Indica si la compresión está activa (gzip, br)
X-Robots-Tag	Detecta un posible noindex/nofollow a nivel HTTP
Cache-Control	Configuración de caché que afecta la frecuencia de crawl
Headers personalizados	Tus headers enviados se muestran para confirmación

Análisis HTML

Elemento	Lo que verifica la herramienta
Etiquetas meta	Presencia y contenido de title, description, robots, canonical
Estructura	Jerarquía de encabezados (H1-H6) con posición en bytes
Enlaces	Número de enlaces internos, externos y nofollow detectados
Datos estructurados	JSON-LD detectado con tamaño y tipos identificados
Recursos inline	Scripts, estilos, SVG y data URIs embebidos en el HTML

Subrecursos

Elemento	Lo que verifica la herramienta
Scripts	Archivos JavaScript externos cargados por la página
CSS	Hojas de estilo externas
Imágenes	Imágenes referenciadas en el HTML
Fuentes	Fuentes web cargadas
Iframes	Contenidos de terceros embebidos
Recursos de terceros	Subrecursos cargados desde otros dominios
Errores de carga	Recursos que devuelven un error HTTP (404, 500, etc.)

Puntuación de crawl budget

Elemento	Lo que evalúa la herramienta
Puntuación global	Nota sobre 100, ponderada por la importancia de cada factor
Tamaño de la página	Impacto del peso HTML en el presupuesto de crawl
Número de subrecursos	Cada petición consume presupuesto
Recursos de terceros	Los dominios externos añaden latencia
Tiempo de respuesta	Una respuesta lenta reduce el número de páginas rastreadas
Compresión	La ausencia de compresión desperdicia ancho de banda

Redirecciones del lado del cliente

Elemento	Lo que detecta la herramienta
Meta refresh	Etiquetas `<meta http-equiv="refresh">` con URL y retardo
JavaScript	Patrones `window.location`, `document.location`, `location.href`
Posición en el HTML	Localización en bytes de la redirección detectada

Huella de contenido

Elemento	Descripción
Hash SHA-256	Huella única del contenido de la página
Detección de cambios	Compara el hash entre dos análisis para saber si el contenido ha cambiado
Comparación móvil/escritorio	Si ambas versiones tienen el mismo hash, el contenido es idéntico

Comparación móvil vs escritorio

Elemento	Lo que compara la herramienta
Tamaño	Diferencia de peso HTML entre ambas versiones
Headers	Diferencias de Content-Type, compresión, caché, X-Robots-Tag
Etiquetas meta	¿Title, description, canonical, robots diferentes?
Estructura	Número de encabezados, enlaces, datos estructurados
Huella	Mismo hash = contenido idéntico, hash diferente = contenido distinto
Veredicto	Síntesis: idéntico, diferencias menores o críticas

Introduce tu URL arriba para obtener el análisis completo de tu página.

Casos de uso reales

Caso 1: Página e-commerce con miles de productos

Síntoma: Tu página de categoría lista 500 productos en HTML. El final de la página (paginación, FAQ, enlaces a subcategorías) no aparece en los resultados de Google.

Diagnóstico con la herramienta: La página tiene 3,2 MB de HTML. Googlebot trunca a 2 MB, perdiendo los últimos 200 productos, la FAQ y todos los enlaces de navegación del pie de página.

Acción: Pasar a paginación con carga dinámica (lazy load), limitar el listado inicial a 50 productos, mover la FAQ al inicio de la página.

Caso 2: Puntuación de crawl budget baja por los subrecursos

Síntoma: Google rastrear pocas páginas de tu sitio a pesar de que el contenido se actualiza con regularidad. Tus nuevas páginas tardan semanas en aparecer en el índice.

Diagnóstico con la herramienta: Cada página carga 85 subrecursos, de los cuales 40 son scripts de terceros (analytics, widgets, AB testing). La puntuación de crawl budget es de 35/100. Los recursos de terceros representan el 60 % de las peticiones.

Acción: Cargar los scripts de terceros en diferido (defer/async), eliminar los scripts no utilizados, agrupar los archivos CSS y JS, usar lazy loading para las imágenes bajo el fold.

Caso 3: Redirección JavaScript invisible para Googlebot

Síntoma: Tu página redirige correctamente a los usuarios a la nueva URL, pero la página antigua sigue indexada en Google y la nueva no aparece.

Diagnóstico con la herramienta: La herramienta detecta un window.location.href en el HTML. Es una redirección JavaScript que Googlebot no sigue sistemáticamente. No hay ninguna redirección HTTP (301/302) configurada.

Acción: Reemplazar la redirección JavaScript por una redirección HTTP 301 del lado del servidor. Si necesitas una transición, añade una etiqueta <link rel="canonical"> apuntando a la nueva URL.

Caso 4: robots.txt bloquea una sección importante

Síntoma: Tus páginas /es/blog/ ya no se indexan desde la actualización de tu robots.txt. Ningún error visible en Search Console.

Diagnóstico con la herramienta: El análisis de robots.txt muestra "URL bloqueada" con la regla Disallow: /es/ que bloquea todo el contenido en español. El robots.txt pretendía bloquear /es/admin/ pero la regla es demasiado amplia.

Acción: Corregir robots.txt reemplazando Disallow: /es/ por Disallow: /es/admin/. Verificar con la herramienta que las páginas importantes están permitidas.

Caso 5: Contenido diferente entre móvil y escritorio

Síntoma: Tu posicionamiento en Google baja aunque tu contenido de escritorio es completo y está bien optimizado.

Diagnóstico con la herramienta: El modo comparación revela que la versión smartphone sirve un HTML reducido: la FAQ, las opiniones de clientes y 3 secciones de contenido están ausentes. Las huellas SHA-256 son diferentes. Google indexa la versión móvil, que está incompleta.

Acción: Asegurarte de que la versión móvil contiene el mismo contenido SEO que la versión de escritorio. Usar diseño responsive en lugar de contenido condicional del lado del servidor.

Caso 6: Migración con pérdida de compresión

Síntoma: Tras una migración de servidor, tus páginas cargan más lento y Google rastrear menos páginas.

Diagnóstico con la herramienta: El header Content-Encoding está ausente. El servidor ya no comprime el HTML. La puntuación de crawl budget pasa de 78/100 a 52/100.

Acción: Reactivar la compresión gzip/brotli en el nuevo servidor. Verificar la configuración de nginx/Apache.

Prueba tus páginas con la herramienta de arriba para identificar los problemas específicos de tu sitio.

❓ FAQ - Preguntas frecuentes

P: ¿Cuál es el peso medio de una página web?

R: En 2025, el peso mediano de una página web es de unos 2,5 MB (con todos los tipos de recursos incluidos). Sin embargo, el HTML solo suele pesar entre 50 KB y 500 KB. Es el tamaño del HTML lo que importa para el límite de crawl de Googlebot, no el peso total con imágenes, CSS y JavaScript.

P: ¿Qué pasa cuando una página supera los 2 MB?

R: Googlebot trunca el HTML a partir de los 2 097 152 bytes. Todo el contenido posterior se ignora para la indexación. En la práctica: enlaces internos, FAQ estructurada, texto SEO al final de la página ya no se tienen en cuenta para el posicionamiento en los resultados de búsqueda.

P: ¿Qué es el crawl budget?

R: El crawl budget es el número de páginas que Googlebot puede rastrear en tu sitio en un tiempo determinado. Las páginas pesadas con muchos subrecursos consumen más recursos de servidor y red, reduciendo el número total de páginas rastreadas. Nuestra herramienta calcula una puntuación sobre 100 para evaluar la eficiencia de cada página.

P: ¿Por qué los subrecursos afectan al crawl?

R: Cada subrecurso (script, CSS, imagen, fuente) requiere una petición HTTP adicional. Googlebot tiene una capacidad de crawl limitada por dominio. Una página que carga más de 80 subrecursos consume mucho más presupuesto que una que carga 20. Los recursos de terceros añaden latencia y dependencias externas.

P: ¿Qué es una redirección del lado del cliente?

R: Es una redirección realizada por el navegador mediante una etiqueta meta refresh o JavaScript (window.location). A diferencia de las redirecciones HTTP (301, 302), Googlebot no siempre las sigue. Si tu única redirección es del lado del cliente, la página de destino puede no indexarse nunca.

P: ¿La herramienta verifica el archivo robots.txt?

R: Sí. La herramienta recupera automáticamente el robots.txt del dominio y verifica si Googlebot tiene permitido rastrear la URL analizada. También detecta el crawl-delay y los sitemaps declarados. Si robots.txt bloquea la URL, se muestra una advertencia, pero el análisis de la página continúa para que puedas ver el contenido de todos modos.

P: ¿La herramienta funciona con archivos PDF?

R: Sí. La herramienta detecta automáticamente los archivos PDF y adapta el límite de tamaño: 64 MB en lugar de 2 MB para el HTML. Se muestra un badge PDF en el informe y el análisis HTML se desactiva (no aplica a los PDF).

P: ¿Para qué sirve la huella de contenido (hash)?

R: La herramienta genera un hash SHA-256 del contenido de la página. Esta huella permite detectar si el contenido ha cambiado entre dos análisis, o si las versiones móvil y escritorio sirven un contenido idéntico. Útil para vigilar las modificaciones no intencionadas tras un despliegue.

P: ¿Por qué comparar las versiones móvil y escritorio?

R: Google utiliza el mobile-first indexing desde 2019: la versión smartphone es la que se indexa prioritariamente. Si tu versión móvil sirve un contenido diferente (menos texto, FAQ ausente, enlaces faltantes), tu posicionamiento se ve afectado. El modo comparación detecta estas diferencias y las clasifica por severidad.

P: ¿Por qué elegir Googlebot smartphone en vez de desktop?

R: Google utiliza el mobile-first indexing desde 2019: la versión smartphone de tu página es la que se indexa prioritariamente. Prueba con el User-Agent smartphone para ver exactamente lo que Google indexa. El modo comparación permite verificar que ambas versiones son coherentes.

P: ¿Cómo reducir el peso de una página web?

R: Las acciones más eficaces:

Eliminar CSS/JS inline innecesario - Mover a archivos externos
Activar la compresión - gzip o brotli a nivel de servidor
Minificar el HTML - Eliminar espacios y comentarios
Externalizar los SVG - Reemplazar los SVG inline por etiquetas img
Lazy loading - Cargar el contenido voluminoso bajo demanda

P: ¿La compresión gzip/brotli cuenta para el límite de 2 MB?

R: No. El límite de 2 MB se aplica al HTML descomprimido. Un HTML de 3 MB comprimido a 500 KB durante la transferencia será truncado igualmente a 2 MB una vez descomprimido por Googlebot. La compresión mejora la velocidad de transferencia, pero no evita el límite de tamaño.

P: ¿Para qué sirven los headers HTTP personalizados?

R: Los headers personalizados permiten probar configuraciones específicas: enviar una cookie para acceder a un sitio protegido, simular un header Accept-Language particular, o reproducir las condiciones de un CDN. La herramienta muestra los headers enviados en el informe para confirmación.

Herramientas complementarias

Herramienta	Utilidad
Búsqueda DNS	Verificar los registros DNS de tu dominio
Verificador de propagación DNS	Confirmar que tus cambios DNS se han propagado globalmente
Auditoría de entregabilidad email	Analizar MX, SPF, DKIM y DMARC de tu dominio
Verificador SPF	Analizar y validar tu registro SPF
Hash Generator	Calcular huellas SHA-256 para comparar el contenido de tus páginas
Redirección de dominio	Reemplazar redirecciones JavaScript por 301/302 HTTPS adecuadas
Verificador de cabeceras HTTP	Auditar los security headers (CSP, HSTS, X-Frame-Options) con una nota de A a F
Test HSTS	Verificar la cabecera Strict-Transport-Security y la preload list de Chrome

Recursos útiles

Google - Documentación sobre los límites de crawl (documentación oficial de Googlebot)
Google - Mobile-first indexing (guía del mobile-first indexing)
Google - Crawl budget management (gestión del crawl budget para sitios grandes)
HTTP Archive - State of the Web (estadísticas sobre el peso de las páginas web)
Web.dev - Optimize Largest Contentful Paint (optimización del rendimiento web)

Analizador de crawl de página web

Diagnóstico completo del crawl Googlebot en pocos segundos

Análisis de tamaño y truncamiento

Puntuación de crawl budget

Inventario de subrecursos

Detección de redirecciones cliente

Comparación móvil vs escritorio

¿Por qué analizar el crawl de tus páginas web?

Cómo usar el page crawl checker en 3 pasos

Paso 1: Introducir la URL de la página

Paso 2: Elegir el User-Agent y las opciones

Paso 3: Consultar el informe completo

¿Qué es el límite de 2 MB de Googlebot?

¿Qué analiza exactamente la herramienta?

Análisis de tamaño

Verificación de robots.txt

Headers HTTP

Análisis HTML

Subrecursos

Puntuación de crawl budget

Redirecciones del lado del cliente

Huella de contenido

Comparación móvil vs escritorio

Casos de uso reales

Caso 1: Página e-commerce con miles de productos

Caso 2: Puntuación de crawl budget baja por los subrecursos

Caso 3: Redirección JavaScript invisible para Googlebot

Caso 4: robots.txt bloquea una sección importante

Caso 5: Contenido diferente entre móvil y escritorio

Caso 6: Migración con pérdida de compresión

❓ FAQ - Preguntas frecuentes

Herramientas complementarias

Recursos útiles