Ir al contenido principal

Analizador de crawl de página web

Diagnóstico completo del crawl Googlebot en pocos segundos

¿Google rastrea correctamente tu página? Mide el peso HTML, verifica robots.txt, analiza los subrecursos y estima tu puntuación de crawl budget. Detecta las redirecciones meta refresh, compara móvil vs escritorio y genera una huella SHA-256 del contenido. Diagnóstico gratuito, resultados en pocos segundos.

Enviar headers personalizados con la solicitud de rastreo. User-Agent, Host y los headers de transferencia no están permitidos (máx. 10 headers, 1 KB por valor).

Análisis de tamaño y truncamiento

Mide el peso exacto del HTML descomprimido. Visualiza el ratio respecto al límite de 2 MB (HTML) o 64 MB (PDF) con una barra de progreso.

Puntuación de crawl budget

Obtén una puntuación sobre 100 que evalúa la eficiencia de tu página para el crawl. Identifica los factores que consumen innecesariamente tu presupuesto.

Inventario de subrecursos

Lista todos los scripts, CSS, imágenes, fuentes e iframes cargados por la página. Detecta los recursos de terceros y los errores de carga.

Detección de redirecciones cliente

Identifica las redirecciones meta refresh y JavaScript invisibles para Googlebot. Estas redirecciones del lado del cliente pueden bloquear la indexación.

Comparación móvil vs escritorio

Compara las versiones smartphone y escritorio de tu página. Detecta las diferencias de tamaño, contenido y headers entre ambas versiones.

¿Por qué analizar el crawl de tus páginas web?

Si tu HTML supera los 2 MB, Googlebot lo trunca silenciosamente. Sin errores en Search Console, sin avisos: el contenido al final de la página desaparece del índice de Google (fuente: documentación de Google). Y eso es solo una parte del problema: un robots.txt mal configurado, subrecursos excesivos, redirecciones JavaScript invisibles y una compresión deficiente consumen tu crawl budget sin que lo sepas.

Cinco razones para analizar el crawl de tus páginas:

  • Evitar el truncamiento - Las páginas con HTML inline pesado (SVG, CSS, JSON-LD voluminoso) suelen superar el límite sin que lo sepas
  • Verificar el acceso de Googlebot - Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes
  • Optimizar el crawl budget - Páginas más ligeras con menos subrecursos = más páginas rastreadas por Google en el tiempo asignado
  • Detectar las redirecciones invisibles - Las meta refresh y redirecciones JavaScript no siempre son seguidas por Googlebot
  • Comparar móvil vs escritorio - El mobile-first indexing significa que la versión smartphone es la que cuenta para la indexación

Cómo usar el page crawl checker en 3 pasos

Paso 1: Introducir la URL de la página

Introduce la URL completa de la página a analizar en el campo de arriba. La herramienta acepta cualquier URL pública accesible, incluidos archivos PDF:

https://www.captaindns.com/es

Prueba primero tus páginas más largas: páginas de categorías, páginas de productos con muchas variantes, artículos de blog con muchas imágenes inline.

Paso 2: Elegir el User-Agent y las opciones

Selecciona el User-Agent para simular el crawl:

  • Googlebot smartphone (recomendado): simula el crawl mobile-first, el que Google utiliza para la indexación principal
  • Googlebot desktop: útil para comparar la versión de escritorio si tu sitio sirve un HTML diferente
  • Modo comparación: prueba ambos User-Agents simultáneamente para detectar diferencias de contenido, tamaño y headers

En las opciones avanzadas, puedes añadir headers HTTP personalizados. Útil para probar un sitio detrás de un CDN, un reverse proxy, o para enviar una cookie de autenticación específica.

Paso 3: Consultar el informe completo

El informe muestra:

  • KPI en la parte superior: tamaño, puntuación crawl budget, número de subrecursos, tiempo de respuesta, redirecciones cliente
  • Barra de progreso: ratio visual respecto al límite de 2 MB (o 64 MB para los PDF)
  • robots.txt: verificación de que Googlebot tiene permitido rastrear la URL, crawl-delay y sitemaps detectados
  • Headers HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag, y tus headers personalizados enviados
  • Análisis HTML: etiquetas meta, encabezados, enlaces, datos estructurados, recursos inline
  • Subrecursos: inventario completo de scripts, CSS, imágenes, fuentes, iframes con tamaño y estado
  • Crawl budget: puntuación sobre 100 con detalle de los factores e impacto individual
  • Redirecciones cliente: meta refresh y JavaScript detectados en el HTML
  • Huella de contenido: hash SHA-256 para detectar cambios entre análisis
  • Simulación de truncamiento: si aplica, visualiza exactamente dónde cortaría Googlebot
  • Recomendaciones: acciones concretas priorizadas por impacto

¿Qué es el límite de 2 MB de Googlebot?

Google documenta un límite de tamaño para el crawl: Googlebot puede descargar e indexar los primeros 2 097 152 bytes (2 MB) del código fuente HTML de una página. Más allá, el contenido se trunca. Para los archivos PDF, el límite es de 64 MB.

Lo que esto significa en la práctica:

Tipo de contenidoLímiteConsecuencia si se supera
HTML2 MB (2 097 152 bytes)Truncamiento: contenido al final de la página ignorado
PDF64 MBTruncamiento del contenido textual extraído

Atención: el límite HTML se aplica al contenido descomprimido. La compresión gzip/brotli no cambia nada: un HTML de 3 MB comprimido en tránsito será truncado igualmente a 2 MB tras la descompresión.

Páginas en riesgo:

  • Páginas e-commerce con cientos de productos listados en HTML
  • Landing pages con SVG inline o CSS embebido voluminoso
  • Páginas con JSON-LD estructurado muy detallado (ej.: FAQ de más de 50 preguntas)
  • Páginas generadas del lado del servidor con JavaScript inline abundante

¿Qué analiza exactamente la herramienta?

Análisis de tamaño

ElementoDescripción
Tamaño brutoPeso exacto del HTML devuelto por el servidor, en bytes
Tamaño descomprimidoTamaño tras decodificar gzip/brotli (el que cuenta para Googlebot)
Ratio del límitePorcentaje del límite consumido (2 MB para HTML, 64 MB para PDF)
Tipo de contenidoDetección automática HTML, PDF u otro con badge visual

Verificación de robots.txt

ElementoLo que verifica la herramienta
Acceso de Googlebot¿La URL analizada está permitida o bloqueada por robots.txt?
Agente coincidenteQué regla se aplica (Googlebot, *, etc.)
Crawl-delayRetardo impuesto entre las peticiones de crawl
SitemapsArchivos sitemap declarados en robots.txt

Headers HTTP

HeaderPor qué es importante
Content-TypeConfirma que el servidor devuelve HTML (o un PDF)
Content-EncodingIndica si la compresión está activa (gzip, br)
X-Robots-TagDetecta un posible noindex/nofollow a nivel HTTP
Cache-ControlConfiguración de caché que afecta la frecuencia de crawl
Headers personalizadosTus headers enviados se muestran para confirmación

Análisis HTML

ElementoLo que verifica la herramienta
Etiquetas metaPresencia y contenido de title, description, robots, canonical
EstructuraJerarquía de encabezados (H1-H6) con posición en bytes
EnlacesNúmero de enlaces internos, externos y nofollow detectados
Datos estructuradosJSON-LD detectado con tamaño y tipos identificados
Recursos inlineScripts, estilos, SVG y data URIs embebidos en el HTML

Subrecursos

ElementoLo que verifica la herramienta
ScriptsArchivos JavaScript externos cargados por la página
CSSHojas de estilo externas
ImágenesImágenes referenciadas en el HTML
FuentesFuentes web cargadas
IframesContenidos de terceros embebidos
Recursos de tercerosSubrecursos cargados desde otros dominios
Errores de cargaRecursos que devuelven un error HTTP (404, 500, etc.)

Puntuación de crawl budget

ElementoLo que evalúa la herramienta
Puntuación globalNota sobre 100, ponderada por la importancia de cada factor
Tamaño de la páginaImpacto del peso HTML en el presupuesto de crawl
Número de subrecursosCada petición consume presupuesto
Recursos de tercerosLos dominios externos añaden latencia
Tiempo de respuestaUna respuesta lenta reduce el número de páginas rastreadas
CompresiónLa ausencia de compresión desperdicia ancho de banda

Redirecciones del lado del cliente

ElementoLo que detecta la herramienta
Meta refreshEtiquetas <meta http-equiv="refresh"> con URL y retardo
JavaScriptPatrones window.location, document.location, location.href
Posición en el HTMLLocalización en bytes de la redirección detectada

Huella de contenido

ElementoDescripción
Hash SHA-256Huella única del contenido de la página
Detección de cambiosCompara el hash entre dos análisis para saber si el contenido ha cambiado
Comparación móvil/escritorioSi ambas versiones tienen el mismo hash, el contenido es idéntico

Comparación móvil vs escritorio

ElementoLo que compara la herramienta
TamañoDiferencia de peso HTML entre ambas versiones
HeadersDiferencias de Content-Type, compresión, caché, X-Robots-Tag
Etiquetas meta¿Title, description, canonical, robots diferentes?
EstructuraNúmero de encabezados, enlaces, datos estructurados
HuellaMismo hash = contenido idéntico, hash diferente = contenido distinto
VeredictoSíntesis: idéntico, diferencias menores o críticas

Introduce tu URL arriba para obtener el análisis completo de tu página.


Casos de uso reales

Caso 1: Página e-commerce con miles de productos

Síntoma: Tu página de categoría lista 500 productos en HTML. El final de la página (paginación, FAQ, enlaces a subcategorías) no aparece en los resultados de Google.

Diagnóstico con la herramienta: La página tiene 3,2 MB de HTML. Googlebot trunca a 2 MB, perdiendo los últimos 200 productos, la FAQ y todos los enlaces de navegación del pie de página.

Acción: Pasar a paginación con carga dinámica (lazy load), limitar el listado inicial a 50 productos, mover la FAQ al inicio de la página.


Caso 2: Puntuación de crawl budget baja por los subrecursos

Síntoma: Google rastrear pocas páginas de tu sitio a pesar de que el contenido se actualiza con regularidad. Tus nuevas páginas tardan semanas en aparecer en el índice.

Diagnóstico con la herramienta: Cada página carga 85 subrecursos, de los cuales 40 son scripts de terceros (analytics, widgets, AB testing). La puntuación de crawl budget es de 35/100. Los recursos de terceros representan el 60 % de las peticiones.

Acción: Cargar los scripts de terceros en diferido (defer/async), eliminar los scripts no utilizados, agrupar los archivos CSS y JS, usar lazy loading para las imágenes bajo el fold.


Caso 3: Redirección JavaScript invisible para Googlebot

Síntoma: Tu página redirige correctamente a los usuarios a la nueva URL, pero la página antigua sigue indexada en Google y la nueva no aparece.

Diagnóstico con la herramienta: La herramienta detecta un window.location.href en el HTML. Es una redirección JavaScript que Googlebot no sigue sistemáticamente. No hay ninguna redirección HTTP (301/302) configurada.

Acción: Reemplazar la redirección JavaScript por una redirección HTTP 301 del lado del servidor. Si necesitas una transición, añade una etiqueta <link rel="canonical"> apuntando a la nueva URL.


Caso 4: robots.txt bloquea una sección importante

Síntoma: Tus páginas /es/blog/ ya no se indexan desde la actualización de tu robots.txt. Ningún error visible en Search Console.

Diagnóstico con la herramienta: El análisis de robots.txt muestra "URL bloqueada" con la regla Disallow: /es/ que bloquea todo el contenido en español. El robots.txt pretendía bloquear /es/admin/ pero la regla es demasiado amplia.

Acción: Corregir robots.txt reemplazando Disallow: /es/ por Disallow: /es/admin/. Verificar con la herramienta que las páginas importantes están permitidas.


Caso 5: Contenido diferente entre móvil y escritorio

Síntoma: Tu posicionamiento en Google baja aunque tu contenido de escritorio es completo y está bien optimizado.

Diagnóstico con la herramienta: El modo comparación revela que la versión smartphone sirve un HTML reducido: la FAQ, las opiniones de clientes y 3 secciones de contenido están ausentes. Las huellas SHA-256 son diferentes. Google indexa la versión móvil, que está incompleta.

Acción: Asegurarte de que la versión móvil contiene el mismo contenido SEO que la versión de escritorio. Usar diseño responsive en lugar de contenido condicional del lado del servidor.


Caso 6: Migración con pérdida de compresión

Síntoma: Tras una migración de servidor, tus páginas cargan más lento y Google rastrear menos páginas.

Diagnóstico con la herramienta: El header Content-Encoding está ausente. El servidor ya no comprime el HTML. La puntuación de crawl budget pasa de 78/100 a 52/100.

Acción: Reactivar la compresión gzip/brotli en el nuevo servidor. Verificar la configuración de nginx/Apache.

Prueba tus páginas con la herramienta de arriba para identificar los problemas específicos de tu sitio.


❓ FAQ - Preguntas frecuentes

P: ¿Cuál es el peso medio de una página web?

R: En 2025, el peso mediano de una página web es de unos 2,5 MB (con todos los tipos de recursos incluidos). Sin embargo, el HTML solo suele pesar entre 50 KB y 500 KB. Es el tamaño del HTML lo que importa para el límite de crawl de Googlebot, no el peso total con imágenes, CSS y JavaScript.


P: ¿Qué pasa cuando una página supera los 2 MB?

R: Googlebot trunca el HTML a partir de los 2 097 152 bytes. Todo el contenido posterior se ignora para la indexación. En la práctica: enlaces internos, FAQ estructurada, texto SEO al final de la página ya no se tienen en cuenta para el posicionamiento en los resultados de búsqueda.


P: ¿Qué es el crawl budget?

R: El crawl budget es el número de páginas que Googlebot puede rastrear en tu sitio en un tiempo determinado. Las páginas pesadas con muchos subrecursos consumen más recursos de servidor y red, reduciendo el número total de páginas rastreadas. Nuestra herramienta calcula una puntuación sobre 100 para evaluar la eficiencia de cada página.


P: ¿Por qué los subrecursos afectan al crawl?

R: Cada subrecurso (script, CSS, imagen, fuente) requiere una petición HTTP adicional. Googlebot tiene una capacidad de crawl limitada por dominio. Una página que carga más de 80 subrecursos consume mucho más presupuesto que una que carga 20. Los recursos de terceros añaden latencia y dependencias externas.


P: ¿Qué es una redirección del lado del cliente?

R: Es una redirección realizada por el navegador mediante una etiqueta meta refresh o JavaScript (window.location). A diferencia de las redirecciones HTTP (301, 302), Googlebot no siempre las sigue. Si tu única redirección es del lado del cliente, la página de destino puede no indexarse nunca.


P: ¿La herramienta verifica el archivo robots.txt?

R: Sí. La herramienta recupera automáticamente el robots.txt del dominio y verifica si Googlebot tiene permitido rastrear la URL analizada. También detecta el crawl-delay y los sitemaps declarados. Si robots.txt bloquea la URL, se muestra una advertencia, pero el análisis de la página continúa para que puedas ver el contenido de todos modos.


P: ¿La herramienta funciona con archivos PDF?

R: Sí. La herramienta detecta automáticamente los archivos PDF y adapta el límite de tamaño: 64 MB en lugar de 2 MB para el HTML. Se muestra un badge PDF en el informe y el análisis HTML se desactiva (no aplica a los PDF).


P: ¿Para qué sirve la huella de contenido (hash)?

R: La herramienta genera un hash SHA-256 del contenido de la página. Esta huella permite detectar si el contenido ha cambiado entre dos análisis, o si las versiones móvil y escritorio sirven un contenido idéntico. Útil para vigilar las modificaciones no intencionadas tras un despliegue.


P: ¿Por qué comparar las versiones móvil y escritorio?

R: Google utiliza el mobile-first indexing desde 2019: la versión smartphone es la que se indexa prioritariamente. Si tu versión móvil sirve un contenido diferente (menos texto, FAQ ausente, enlaces faltantes), tu posicionamiento se ve afectado. El modo comparación detecta estas diferencias y las clasifica por severidad.


P: ¿Por qué elegir Googlebot smartphone en vez de desktop?

R: Google utiliza el mobile-first indexing desde 2019: la versión smartphone de tu página es la que se indexa prioritariamente. Prueba con el User-Agent smartphone para ver exactamente lo que Google indexa. El modo comparación permite verificar que ambas versiones son coherentes.


P: ¿Cómo reducir el peso de una página web?

R: Las acciones más eficaces:

  • Eliminar CSS/JS inline innecesario - Mover a archivos externos
  • Activar la compresión - gzip o brotli a nivel de servidor
  • Minificar el HTML - Eliminar espacios y comentarios
  • Externalizar los SVG - Reemplazar los SVG inline por etiquetas img
  • Lazy loading - Cargar el contenido voluminoso bajo demanda

P: ¿La compresión gzip/brotli cuenta para el límite de 2 MB?

R: No. El límite de 2 MB se aplica al HTML descomprimido. Un HTML de 3 MB comprimido a 500 KB durante la transferencia será truncado igualmente a 2 MB una vez descomprimido por Googlebot. La compresión mejora la velocidad de transferencia, pero no evita el límite de tamaño.


P: ¿Para qué sirven los headers HTTP personalizados?

R: Los headers personalizados permiten probar configuraciones específicas: enviar una cookie para acceder a un sitio protegido, simular un header Accept-Language particular, o reproducir las condiciones de un CDN. La herramienta muestra los headers enviados en el informe para confirmación.


Herramientas complementarias

HerramientaUtilidad
Búsqueda DNSVerificar los registros DNS de tu dominio
Verificador de propagación DNSConfirmar que tus cambios DNS se han propagado globalmente
Auditoría de entregabilidad emailAnalizar MX, SPF, DKIM y DMARC de tu dominio
Verificador SPFAnalizar y validar tu registro SPF
Hash GeneratorCalcular huellas SHA-256 para comparar el contenido de tus páginas
Redirección de dominioReemplazar redirecciones JavaScript por 301/302 HTTPS adecuadas

Recursos útiles