Desactiva el bloqueo de bots con IA de Cloudflare y permite que el tráfico geolocalizado fluya

En resumen: El bloqueo de bots de IA de Cloudflare puede impedir accidentalmente el tráfico GEO procedente de motores de respuesta con IA. Aquí tienes cómo configurar las reglas para frenar a los scrapers sin perder las citas.

("Tráfico GEO" aquí = Generative-Engine-Optimised traffic que llega desde asistentes de IA como ChatGPT, Claude, Perplexity y Gemini).

Lo descubrí cuando nuestro propio tráfico cayó. En julio de 2025 vi algo raro en los analytics de SEOJuice: las menciones de marca en respuestas de IA se habían desplomado durante un par de semanas, aunque el ritmo de publicación seguía igual. Pasé buena parte del viernes revisando logs del servidor hasta que se me ocurrió mirar Cloudflare. Allí estaba: el interruptor “Block AI Scrapers” activado. (Llevaba dos cafés y estaba a mitad de un borrador totalmente distinto cuando caí en la cuenta). No recuerdo haberlo habilitado. Puede que fuese un cambio por defecto al subir de plan o que algún ingeniero lo activara durante un susto de DDoS y olvidara desactivarlo. En cualquier caso, GPTBot, ClaudeBot, PerplexityBot, Google-Extended: todos recibiendo un 403 en el edge durante dos semanas. Los logs de origen no mostraban nada porque nunca pasaron de Cloudflare.

Contexto del interruptor: en julio de 2025 Cloudflare lanzó lo que llamó “AIndependence”, un bloqueo de scrapers de IA con un clic y activado por defecto. Matthew Prince lo presentó como una forma de proteger a los creadores frente a “bots de IA que raspan contenido sin permiso ni compensación”. La comunidad SEO se dividió enseguida: los editores que odian el scraping aplaudieron, mientras quienes hacemos optimización para búsqueda por IA (yo incluido) vimos cómo se cortaban en silencio nuestros canales de citas. Pravin Kumar publicó una versión específica para Webflow unos meses después; esta versión incluye una línea temporal de recuperación.

Cuando Cloudflare devuelve un 403, ChatGPT recurre a lo que pueda indexar en otro sitio: textos de Product Hunt, reseñas desactualizadas o artículos de la competencia. Pierdes el control del relato y (más doloroso) el enlace que habría llevado visitantes cualificados a tu web.

Tras desactivar el interruptor y añadir una regla de permiso explícita, nuestras citas en IA se recuperaron en unas 72 horas (comparado con los 14 días anteriores: sesiones con referente ChatGPT en GA4, filtradas por fuente/medio chatgpt.com y perplexity.ai). Dos semanas de daño invisible, arreglado en dos minutos. Este artículo es ese arreglo de dos minutos.

Qué significa realmente el “tráfico GEO”

Tráfico Generative-Engine-Optimised (GEO) es el flujo de visitantes que llega cuando tu contenido aparece citado dentro de asistentes de IA: ChatGPT “Browse”, instantáneas de Gemini, respuestas de Perplexity, barras laterales de Microsoft Copilot e incluso altavoces inteligentes. Cuando GPTBot o ClaudeBot rastrea una página, el texto y los enlaces se almacenan en un vector store que alimenta esas respuestas. Cada vez que el modelo muestra tu párrafo con un enlace activo, un porcentaje de usuarios hace clic.

Por qué importa: en nuestros propios logs del rastreador de SEOJuice, en los ~600 sitios de clientes que supervisamos, los user-agents de IA de confianza (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider) generaron alrededor del 20-30 % del volumen de peticiones que Googlebot clásico durante el Q1 2026. Es nuestro dato, no un estudio de la industria, y está sesgado hacia SaaS y contenido técnico, donde nos concentramos. Cloudflare Radar publica su propio reparto de tráfico de bots por si quieres una segunda fuente; sus números son más bajos porque agregan todos los verticales, incluidos los que los bots de IA ignoran. La porción crece un par de puntos porcentuales al mes en nuestra muestra. No sé si ese ritmo se mantendrá; podría estancarse o acelerarse. Lo que sí sé es que ignorar esta fuente ahora es pasar por alto algo ya medible en la mayoría de los sitios tech.

Ruta típica de citación:

GPTBot recupera tu página de notas o blog,
el texto se embebe y almacena,
un usuario hace una pregunta,
el modelo recupera tu fragmento y cita la URL,
el usuario hace clic. Ganas un visitante con alta intención.

Si bloqueas el paso 1, la cadena nunca empieza.

Cómo Cloudflare estrangula sin querer el descubrimiento por IA

Bot Fight Mode de Cloudflare incluye un interruptor con nombre inocente: “Block AI Scrapers”. Al activarlo, cualquier petición cuyo user-agent coincida con GPTBot, ClaudeBot, PerplexityBot o Google-Extended recibe un challenge o un 403 directo. Como el bloqueo ocurre en el edge, puede que tus logs de origen nunca lo registren; solo los analytics de Cloudflare muestran un pico de respuestas 4xx a user-agents de IA.

Razón de ser del interruptor: Cloudflare está probando un mercado de pago por rastreo donde los grandes proveedores de LLM compran tokens de acceso, y Cloudflare obtiene una comisión similar, en espíritu, a las tasas de la App Store (el reparto exacto no se ha hecho público; el anuncio de Cloudflare es deliberadamente vago). Genial para su margen; doloroso para los sitios que dependen de citas de IA. (Entiendo la lógica de negocio; solo desearía que el valor por defecto no fuera “bloquear todo”. Es mi lectura, no la de un directivo de Cloudflare).

Síntomas que verás

Síntoma	Dónde verlo	Qué significa
Pico de 403 para GPTBot en los logs de Cloudflare	Security ▸ Events	Bots de IA bloqueados en el edge
ChatGPT Browse cita resúmenes de terceros en lugar de tu dominio	Prueba manual de prompt	El modelo no pudo rastrear tu contenido
La lista “Sources” de Perplexity te omite pese a la relevancia	Panel de respuesta de Perplexity	El índice no incluyó tu página

Prueba técnica

curl -I https://seojuice.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Ejecuta el mismo curl con un user-agent normal de navegador y obtendrás 200 OK. La diferencia es el bloqueo de bots de IA de Cloudflare.

Conclusión: si mantienes el interruptor activo, es como poner Disallow: / a todos los rastreadores de IA importantes. Desactívalo o crea una regla explícita de Allow para user-agents de confianza y el tráfico GEO puede empezar a fluir en 24-48 horas.

Crawlers de IA que sí quieres dejar pasar

De los cinco siguientes, desbloquearía GPTBot primero si solo tuvieras tiempo para uno (por volumen). Subestimé ClaudeBot hasta que nuestras citas técnicas empezaron a aparecer en Anthropic, y Google-Extended es el más discreto pero probablemente el de cola más larga. Lista completa:

Bot	Proveedor	Por qué te interesa	User-Agent oficial*
GPTBot	OpenAI	Alimenta respuestas y citas de ChatGPT. Docs oficiales.	`Mozilla/5.0 … GPTBot/1.0`
ClaudeBot	Anthropic	Genera citas y fetches en tiempo real para Claude AI.	`Mozilla/5.0 … ClaudeBot/1.0`
PerplexityBot	Perplexity.ai	Construye el índice de respuestas de Perplexity (el panel de fuentes genera clics).	`Mozilla/5.0 … PerplexityBot/1.0`
Google-Extended	Google	Provee al LLM de Gemini; separado de Googlebot clásico.	`Mozilla/5.0 (compatible; Google-Extended/1.0…)`
BingBot (Copilot)	Microsoft	Rastrea para la búsqueda de Bing y las respuestas de Copilot.	`Mozilla/5.0 … bingbot/2.0`

*Los puntos suspensivos (…) indican la cadena estándar de navegador que precede al token del bot.

Paso a paso: desactivar el bloqueo de bots de IA en Cloudflare

Inicia sesión en el panel de Cloudflare
Selecciona el dominio que quieras corregir.
Navega a: Security ▸ Bots
Busca el interruptor “Block AI Scrapers”
Está bajo Bot Fight Mode. Desactívalo.
(Opcional pero más seguro) Añade una regla de Allow explícita
- Security ▸ WAF ▸ Custom Rules ▸ Create
- Expresión: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
- Acción: Skip → Bot Fight Mode, Managed Challenge
Purge Cache
Caching ▸ Configuration ▸ Purge Everything para que los bots obtengan respuestas 200 frescas.
Verifica

curl -I https://seojuice.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

Deberías ver HTTP/2 200, no 403.

Tiempo total: ~2 minutos. Resultado: los rastreadores de IA por fin pueden leer y citar tus páginas.

Robots.txt para una postura SEO orientada a IA

Antes dije que el interruptor es casi toda la historia. Es un 90 % cierto. El otro 10 % es tu robots.txt, porque una línea Disallow obsoleta deshará silenciosamente todo lo que acabas de hacer en Cloudflare.

User-agent: * Allow: /

Y listo. Un allow global asegura que todos los bots fiables, de búsqueda y de IA, puedan acceder a cada URL pública. Las líneas parciales o heredadas de Disallow: rompen la indexación moderna porque:

Los bots de IA suelen carecer de reglas especiales por subdirectorio; un Disallow: /api perdido puede acabar en denegación total.
Los rastreadores futuros heredan las mismas reglas; tu bloqueo “temporal” se convierte en exclusión permanente de datos de entrenamiento.

Si necesitas limitar ancho de banda, usa rate-limiting o WAF de Cloudflare, no robots.txt; así mantienes visibilidad de rastreo mientras controlas la carga.

FAQ: Cloudflare, bots de IA y bloqueos

P 1. “Bot Fight Mode” está activado, pero no veo errores en mis logs de servidor. ¿Por qué?
Cloudflare bloquea GPTBot y compañía en el edge, así que las respuestas 403 nunca llegan a tu origen. Revisa Cloudflare Dashboard → Security → Events o haz un curl con el user-agent del bot; ahí aparecerán los bloqueos ocultos.

P 2. ¿Permitir GPTBot disparará mi factura de ancho de banda?
Un rastreo completo de GPTBot es ligero: solo HTML, sin imágenes, CSS ni JS. Para un sitio de 500 páginas suele ser < 30 MB al mes, muy por debajo de los 100 MB de salida del plan gratuito de Cloudflare.

P 3. ¿Desbloquear crawlers de IA puede exponer contenido privado o de pago?
Solo si las URLs son públicas. Mantén PDFs premium o vídeos para miembros tras cabeceras de autenticación; GPTBot respeta HTTP 401/403 igual que Googlebot. Robots.txt no es seguridad: si la URL es accesible, las directivas son mera cortesía.

P 4. ¿La lista “Verified Bot” de Cloudflare incluye crawlers de IA?
No. GPTBot, ClaudeBot y PerplexityBot no están aún en la lista verificada, así que caen en el bucket genérico de “AI Scraper” que se bloquea cuando el interruptor está activo.

P 5. ¿Qué hago con scrapers de IA dudosos que consumen ancho de banda?
Crea una regla WAF para permitir solo user-agents fiables (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) y limita el resto por rate-limiting. Sigues abierto a las citas pero blindado frente a recolectores desconocidos.

P 6. Si desbloqueo hoy, ¿cuánto tardarán los asistentes de IA en citarme?
Mencioné 72 horas arriba. Ese número viene de aquí: en nuestras páginas más citadas, las sesiones GA4 con referente chatgpt.com volvieron a la línea base en unos 3 días tras desactivar el interruptor y purgar caché. La cola larga tardó ~10 días. (Pensaba que serían mínimo 7 días para todos; no fue así). Según la doc de GPTBot, la frecuencia de rastreo varía con la popularidad y señales de actualización, así que tus cifras dependerán de la frecuencia con que ya se solicitaban tus URLs antes del bloqueo.

Pruébalo en tu sitio

La forma más rápida de verificar que el arreglo funciona en tu dominio: Ejecutar AI Crawler Inspector →

Prueba tu URL con cada user-agent de IA y te dice cuáles reciben 200 frente a 403, sin esperar tres días a que ChatGPT te vuelva a citar.

Sigue leyendo

AI Crawler Playbook 2025: estrategia completa para gestionar el acceso de bots de IA.
LLM.txt Generator: ofrece a los crawlers de IA un resumen estructurado en lugar de bloquearlos.

Our powerful suite of automation tools for SEO

Learn, discover, and get inspired by our content