¿Por qué analizar el crawl de tus páginas web?
Si tu HTML supera los 2 MB, Googlebot lo trunca silenciosamente. Sin errores en Search Console, sin avisos: el contenido al final de la página desaparece del índice de Google (fuente: documentación de Google). Y eso es solo una parte del problema: un robots.txt mal configurado, subrecursos excesivos, redirecciones JavaScript invisibles y una compresión deficiente consumen tu crawl budget sin que lo sepas.
Cinco razones para analizar el crawl de tus páginas:
- Evitar el truncamiento - Las páginas con HTML inline pesado (SVG, CSS, JSON-LD voluminoso) suelen superar el límite sin que lo sepas
- Verificar el acceso de Googlebot - Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes
- Optimizar el crawl budget - Páginas más ligeras con menos subrecursos = más páginas rastreadas por Google en el tiempo asignado
- Detectar las redirecciones invisibles - Las meta refresh y redirecciones JavaScript no siempre son seguidas por Googlebot
- Comparar móvil vs escritorio - El mobile-first indexing significa que la versión smartphone es la que cuenta para la indexación
Cómo usar el page crawl checker en 3 pasos
Paso 1: Introducir la URL de la página
Introduce la URL completa de la página a analizar en el campo de arriba. La herramienta acepta cualquier URL pública accesible, incluidos archivos PDF:
https://www.captaindns.com/es
Prueba primero tus páginas más largas: páginas de categorías, páginas de productos con muchas variantes, artículos de blog con muchas imágenes inline.
Paso 2: Elegir el User-Agent y las opciones
Selecciona el User-Agent para simular el crawl:
- Googlebot smartphone (recomendado): simula el crawl mobile-first, el que Google utiliza para la indexación principal
- Googlebot desktop: útil para comparar la versión de escritorio si tu sitio sirve un HTML diferente
- Modo comparación: prueba ambos User-Agents simultáneamente para detectar diferencias de contenido, tamaño y headers
En las opciones avanzadas, puedes añadir headers HTTP personalizados. Útil para probar un sitio detrás de un CDN, un reverse proxy, o para enviar una cookie de autenticación específica.
Paso 3: Consultar el informe completo
El informe muestra:
- KPI en la parte superior: tamaño, puntuación crawl budget, número de subrecursos, tiempo de respuesta, redirecciones cliente
- Barra de progreso: ratio visual respecto al límite de 2 MB (o 64 MB para los PDF)
- robots.txt: verificación de que Googlebot tiene permitido rastrear la URL, crawl-delay y sitemaps detectados
- Headers HTTP: Content-Type, Content-Encoding, Cache-Control, X-Robots-Tag, y tus headers personalizados enviados
- Análisis HTML: etiquetas meta, encabezados, enlaces, datos estructurados, recursos inline
- Subrecursos: inventario completo de scripts, CSS, imágenes, fuentes, iframes con tamaño y estado
- Crawl budget: puntuación sobre 100 con detalle de los factores e impacto individual
- Redirecciones cliente: meta refresh y JavaScript detectados en el HTML
- Huella de contenido: hash SHA-256 para detectar cambios entre análisis
- Simulación de truncamiento: si aplica, visualiza exactamente dónde cortaría Googlebot
- Recomendaciones: acciones concretas priorizadas por impacto
¿Qué es el límite de 2 MB de Googlebot?
Google documenta un límite de tamaño para el crawl: Googlebot puede descargar e indexar los primeros 2 097 152 bytes (2 MB) del código fuente HTML de una página. Más allá, el contenido se trunca. Para los archivos PDF, el límite es de 64 MB.
Lo que esto significa en la práctica:
| Tipo de contenido | Límite | Consecuencia si se supera |
|---|---|---|
| HTML | 2 MB (2 097 152 bytes) | Truncamiento: contenido al final de la página ignorado |
| 64 MB | Truncamiento del contenido textual extraído |
Atención: el límite HTML se aplica al contenido descomprimido. La compresión gzip/brotli no cambia nada: un HTML de 3 MB comprimido en tránsito será truncado igualmente a 2 MB tras la descompresión.
Páginas en riesgo:
- Páginas e-commerce con cientos de productos listados en HTML
- Landing pages con SVG inline o CSS embebido voluminoso
- Páginas con JSON-LD estructurado muy detallado (ej.: FAQ de más de 50 preguntas)
- Páginas generadas del lado del servidor con JavaScript inline abundante
¿Qué analiza exactamente la herramienta?
Análisis de tamaño
| Elemento | Descripción |
|---|---|
| Tamaño bruto | Peso exacto del HTML devuelto por el servidor, en bytes |
| Tamaño descomprimido | Tamaño tras decodificar gzip/brotli (el que cuenta para Googlebot) |
| Ratio del límite | Porcentaje del límite consumido (2 MB para HTML, 64 MB para PDF) |
| Tipo de contenido | Detección automática HTML, PDF u otro con badge visual |
Verificación de robots.txt
| Elemento | Lo que verifica la herramienta |
|---|---|
| Acceso de Googlebot | ¿La URL analizada está permitida o bloqueada por robots.txt? |
| Agente coincidente | Qué regla se aplica (Googlebot, *, etc.) |
| Crawl-delay | Retardo impuesto entre las peticiones de crawl |
| Sitemaps | Archivos sitemap declarados en robots.txt |
Headers HTTP
| Header | Por qué es importante |
|---|---|
| Content-Type | Confirma que el servidor devuelve HTML (o un PDF) |
| Content-Encoding | Indica si la compresión está activa (gzip, br) |
| X-Robots-Tag | Detecta un posible noindex/nofollow a nivel HTTP |
| Cache-Control | Configuración de caché que afecta la frecuencia de crawl |
| Headers personalizados | Tus headers enviados se muestran para confirmación |
Análisis HTML
| Elemento | Lo que verifica la herramienta |
|---|---|
| Etiquetas meta | Presencia y contenido de title, description, robots, canonical |
| Estructura | Jerarquía de encabezados (H1-H6) con posición en bytes |
| Enlaces | Número de enlaces internos, externos y nofollow detectados |
| Datos estructurados | JSON-LD detectado con tamaño y tipos identificados |
| Recursos inline | Scripts, estilos, SVG y data URIs embebidos en el HTML |
Subrecursos
| Elemento | Lo que verifica la herramienta |
|---|---|
| Scripts | Archivos JavaScript externos cargados por la página |
| CSS | Hojas de estilo externas |
| Imágenes | Imágenes referenciadas en el HTML |
| Fuentes | Fuentes web cargadas |
| Iframes | Contenidos de terceros embebidos |
| Recursos de terceros | Subrecursos cargados desde otros dominios |
| Errores de carga | Recursos que devuelven un error HTTP (404, 500, etc.) |
Puntuación de crawl budget
| Elemento | Lo que evalúa la herramienta |
|---|---|
| Puntuación global | Nota sobre 100, ponderada por la importancia de cada factor |
| Tamaño de la página | Impacto del peso HTML en el presupuesto de crawl |
| Número de subrecursos | Cada petición consume presupuesto |
| Recursos de terceros | Los dominios externos añaden latencia |
| Tiempo de respuesta | Una respuesta lenta reduce el número de páginas rastreadas |
| Compresión | La ausencia de compresión desperdicia ancho de banda |
Redirecciones del lado del cliente
| Elemento | Lo que detecta la herramienta |
|---|---|
| Meta refresh | Etiquetas <meta http-equiv="refresh"> con URL y retardo |
| JavaScript | Patrones window.location, document.location, location.href |
| Posición en el HTML | Localización en bytes de la redirección detectada |
Huella de contenido
| Elemento | Descripción |
|---|---|
| Hash SHA-256 | Huella única del contenido de la página |
| Detección de cambios | Compara el hash entre dos análisis para saber si el contenido ha cambiado |
| Comparación móvil/escritorio | Si ambas versiones tienen el mismo hash, el contenido es idéntico |
Comparación móvil vs escritorio
| Elemento | Lo que compara la herramienta |
|---|---|
| Tamaño | Diferencia de peso HTML entre ambas versiones |
| Headers | Diferencias de Content-Type, compresión, caché, X-Robots-Tag |
| Etiquetas meta | ¿Title, description, canonical, robots diferentes? |
| Estructura | Número de encabezados, enlaces, datos estructurados |
| Huella | Mismo hash = contenido idéntico, hash diferente = contenido distinto |
| Veredicto | Síntesis: idéntico, diferencias menores o críticas |
Introduce tu URL arriba para obtener el análisis completo de tu página.
Casos de uso reales
Caso 1: Página e-commerce con miles de productos
Síntoma: Tu página de categoría lista 500 productos en HTML. El final de la página (paginación, FAQ, enlaces a subcategorías) no aparece en los resultados de Google.
Diagnóstico con la herramienta: La página tiene 3,2 MB de HTML. Googlebot trunca a 2 MB, perdiendo los últimos 200 productos, la FAQ y todos los enlaces de navegación del pie de página.
Acción: Pasar a paginación con carga dinámica (lazy load), limitar el listado inicial a 50 productos, mover la FAQ al inicio de la página.
Caso 2: Puntuación de crawl budget baja por los subrecursos
Síntoma: Google rastrear pocas páginas de tu sitio a pesar de que el contenido se actualiza con regularidad. Tus nuevas páginas tardan semanas en aparecer en el índice.
Diagnóstico con la herramienta: Cada página carga 85 subrecursos, de los cuales 40 son scripts de terceros (analytics, widgets, AB testing). La puntuación de crawl budget es de 35/100. Los recursos de terceros representan el 60 % de las peticiones.
Acción: Cargar los scripts de terceros en diferido (defer/async), eliminar los scripts no utilizados, agrupar los archivos CSS y JS, usar lazy loading para las imágenes bajo el fold.
Caso 3: Redirección JavaScript invisible para Googlebot
Síntoma: Tu página redirige correctamente a los usuarios a la nueva URL, pero la página antigua sigue indexada en Google y la nueva no aparece.
Diagnóstico con la herramienta: La herramienta detecta un window.location.href en el HTML. Es una redirección JavaScript que Googlebot no sigue sistemáticamente. No hay ninguna redirección HTTP (301/302) configurada.
Acción: Reemplazar la redirección JavaScript por una redirección HTTP 301 del lado del servidor. Si necesitas una transición, añade una etiqueta <link rel="canonical"> apuntando a la nueva URL.
Caso 4: robots.txt bloquea una sección importante
Síntoma: Tus páginas /es/blog/ ya no se indexan desde la actualización de tu robots.txt. Ningún error visible en Search Console.
Diagnóstico con la herramienta: El análisis de robots.txt muestra "URL bloqueada" con la regla Disallow: /es/ que bloquea todo el contenido en español. El robots.txt pretendía bloquear /es/admin/ pero la regla es demasiado amplia.
Acción: Corregir robots.txt reemplazando Disallow: /es/ por Disallow: /es/admin/. Verificar con la herramienta que las páginas importantes están permitidas.
Caso 5: Contenido diferente entre móvil y escritorio
Síntoma: Tu posicionamiento en Google baja aunque tu contenido de escritorio es completo y está bien optimizado.
Diagnóstico con la herramienta: El modo comparación revela que la versión smartphone sirve un HTML reducido: la FAQ, las opiniones de clientes y 3 secciones de contenido están ausentes. Las huellas SHA-256 son diferentes. Google indexa la versión móvil, que está incompleta.
Acción: Asegurarte de que la versión móvil contiene el mismo contenido SEO que la versión de escritorio. Usar diseño responsive en lugar de contenido condicional del lado del servidor.
Caso 6: Migración con pérdida de compresión
Síntoma: Tras una migración de servidor, tus páginas cargan más lento y Google rastrear menos páginas.
Diagnóstico con la herramienta: El header Content-Encoding está ausente. El servidor ya no comprime el HTML. La puntuación de crawl budget pasa de 78/100 a 52/100.
Acción: Reactivar la compresión gzip/brotli en el nuevo servidor. Verificar la configuración de nginx/Apache.
Prueba tus páginas con la herramienta de arriba para identificar los problemas específicos de tu sitio.
❓ FAQ - Preguntas frecuentes
P: ¿Cuál es el peso medio de una página web?
R: En 2025, el peso mediano de una página web es de unos 2,5 MB (con todos los tipos de recursos incluidos). Sin embargo, el HTML solo suele pesar entre 50 KB y 500 KB. Es el tamaño del HTML lo que importa para el límite de crawl de Googlebot, no el peso total con imágenes, CSS y JavaScript.
P: ¿Qué pasa cuando una página supera los 2 MB?
R: Googlebot trunca el HTML a partir de los 2 097 152 bytes. Todo el contenido posterior se ignora para la indexación. En la práctica: enlaces internos, FAQ estructurada, texto SEO al final de la página ya no se tienen en cuenta para el posicionamiento en los resultados de búsqueda.
P: ¿Qué es el crawl budget?
R: El crawl budget es el número de páginas que Googlebot puede rastrear en tu sitio en un tiempo determinado. Las páginas pesadas con muchos subrecursos consumen más recursos de servidor y red, reduciendo el número total de páginas rastreadas. Nuestra herramienta calcula una puntuación sobre 100 para evaluar la eficiencia de cada página.
P: ¿Por qué los subrecursos afectan al crawl?
R: Cada subrecurso (script, CSS, imagen, fuente) requiere una petición HTTP adicional. Googlebot tiene una capacidad de crawl limitada por dominio. Una página que carga más de 80 subrecursos consume mucho más presupuesto que una que carga 20. Los recursos de terceros añaden latencia y dependencias externas.
P: ¿Qué es una redirección del lado del cliente?
R: Es una redirección realizada por el navegador mediante una etiqueta meta refresh o JavaScript (window.location). A diferencia de las redirecciones HTTP (301, 302), Googlebot no siempre las sigue. Si tu única redirección es del lado del cliente, la página de destino puede no indexarse nunca.
P: ¿La herramienta verifica el archivo robots.txt?
R: Sí. La herramienta recupera automáticamente el robots.txt del dominio y verifica si Googlebot tiene permitido rastrear la URL analizada. También detecta el crawl-delay y los sitemaps declarados. Si robots.txt bloquea la URL, se muestra una advertencia, pero el análisis de la página continúa para que puedas ver el contenido de todos modos.
P: ¿La herramienta funciona con archivos PDF?
R: Sí. La herramienta detecta automáticamente los archivos PDF y adapta el límite de tamaño: 64 MB en lugar de 2 MB para el HTML. Se muestra un badge PDF en el informe y el análisis HTML se desactiva (no aplica a los PDF).
P: ¿Para qué sirve la huella de contenido (hash)?
R: La herramienta genera un hash SHA-256 del contenido de la página. Esta huella permite detectar si el contenido ha cambiado entre dos análisis, o si las versiones móvil y escritorio sirven un contenido idéntico. Útil para vigilar las modificaciones no intencionadas tras un despliegue.
P: ¿Por qué comparar las versiones móvil y escritorio?
R: Google utiliza el mobile-first indexing desde 2019: la versión smartphone es la que se indexa prioritariamente. Si tu versión móvil sirve un contenido diferente (menos texto, FAQ ausente, enlaces faltantes), tu posicionamiento se ve afectado. El modo comparación detecta estas diferencias y las clasifica por severidad.
P: ¿Por qué elegir Googlebot smartphone en vez de desktop?
R: Google utiliza el mobile-first indexing desde 2019: la versión smartphone de tu página es la que se indexa prioritariamente. Prueba con el User-Agent smartphone para ver exactamente lo que Google indexa. El modo comparación permite verificar que ambas versiones son coherentes.
P: ¿Cómo reducir el peso de una página web?
R: Las acciones más eficaces:
- Eliminar CSS/JS inline innecesario - Mover a archivos externos
- Activar la compresión - gzip o brotli a nivel de servidor
- Minificar el HTML - Eliminar espacios y comentarios
- Externalizar los SVG - Reemplazar los SVG inline por etiquetas
img - Lazy loading - Cargar el contenido voluminoso bajo demanda
P: ¿La compresión gzip/brotli cuenta para el límite de 2 MB?
R: No. El límite de 2 MB se aplica al HTML descomprimido. Un HTML de 3 MB comprimido a 500 KB durante la transferencia será truncado igualmente a 2 MB una vez descomprimido por Googlebot. La compresión mejora la velocidad de transferencia, pero no evita el límite de tamaño.
P: ¿Para qué sirven los headers HTTP personalizados?
R: Los headers personalizados permiten probar configuraciones específicas: enviar una cookie para acceder a un sitio protegido, simular un header Accept-Language particular, o reproducir las condiciones de un CDN. La herramienta muestra los headers enviados en el informe para confirmación.
Herramientas complementarias
| Herramienta | Utilidad |
|---|---|
| Búsqueda DNS | Verificar los registros DNS de tu dominio |
| Verificador de propagación DNS | Confirmar que tus cambios DNS se han propagado globalmente |
| Auditoría de entregabilidad email | Analizar MX, SPF, DKIM y DMARC de tu dominio |
| Verificador SPF | Analizar y validar tu registro SPF |
| Hash Generator | Calcular huellas SHA-256 para comparar el contenido de tus páginas |
| Redirección de dominio | Reemplazar redirecciones JavaScript por 301/302 HTTPS adecuadas |
Recursos útiles
- Google - Documentación sobre los límites de crawl (documentación oficial de Googlebot)
- Google - Mobile-first indexing (guía del mobile-first indexing)
- Google - Crawl budget management (gestión del crawl budget para sitios grandes)
- HTTP Archive - State of the Web (estadísticas sobre el peso de las páginas web)
- Web.dev - Optimize Largest Contentful Paint (optimización del rendimiento web)