Cómo desactivar el bloqueo de bots de IA en Cloudflare sin perder tráfico GEO

TL;DR: el bloqueo de bots de IA de Cloudflare puede bloquear por error el tráfico GEO procedente de motores de respuesta basados en IA. Aquí te explico cómo configurar tus reglas para frenar a los scrapers sin perder citas, visibilidad ni visitas desde ChatGPT, Claude, Perplexity o Gemini.

(Aquí, “tráfico GEO” = tráfico optimizado para motores generativos que llega desde asistentes de IA como ChatGPT, Claude, Perplexity y Gemini.)

Descubrí esto cuando nuestro propio tráfico cayó. En julio de 2025, noté algo raro en las analíticas de SEOJuice: las menciones de marca en respuestas de IA se habían estancado durante unas dos semanas, aunque nuestra producción de contenido no había cambiado. Me pasé buena parte de un viernes por la tarde revisando logs del servidor antes de pensar en revisar Cloudflare. Y ahí estaba: "Block AI Scrapers" activado. No recuerdo haberlo habilitado. Puede que haya sido un cambio por defecto durante una mejora de plan en Cloudflare, o que uno de nuestros ingenieros lo activara durante un susto de DDoS y luego se olvidara de apagarlo. Como sea, GPTBot, ClaudeBot, PerplexityBot, Google-Extended: todos bloqueados con respuestas 403 en el edge de Cloudflare durante dos semanas seguidas. Nuestros logs de origen no mostraban nada porque las solicitudes nunca pasaban de Cloudflare.

Cuando Cloudflare devuelve un 403, ChatGPT recurre a lo que pueda indexar en otro lado: descripciones breves en Product Hunt, reseñas desactualizadas o artículos de competidores. Pierdes control de la narrativa y —más doloroso todavía— el enlace que habría llevado visitantes calificados directo a tu sitio.

Después de desactivar la opción y añadir una regla explícita de permiso, nuestras citas en respuestas de IA se recuperaron en unas 72 horas. Dos semanas de daño invisible, arregladas en dos minutos. Este artículo es esa solución de dos minutos.

Qué significa realmente el “tráfico GEO”

El tráfico GEO es el flujo de visitantes que llega después de que tu contenido es citado dentro de asistentes de IA: ChatGPT "Browse", snapshots de Gemini, respuestas de Perplexity, paneles laterales de Microsoft Copilot e incluso respuestas de altavoces inteligentes. Cuando GPTBot o ClaudeBot rastrean una página, el texto y los enlaces se incorporan a una base vectorial que alimenta esas respuestas. Cada vez que el modelo muestra tu párrafo con un enlace activo, un porcentaje de usuarios hace clic.

Cloudflare AI audit and control dashboard for managing content crawler access — Cloudflare provides granular controls for managing which AI crawlers can access your content. Source: Cloudflare Blog

Marketing team reviewing B2B analytics dashboard showing traffic and performance data — Understanding traffic patterns helps identify when AI-driven referral visits drop unexpectedly. Source: HubSpot Blog

Por qué importa esto: estudios basados en logs del servidor muestran que los rastreadores de IA legítimos ya representan 20-30% del volumen clásico de Googlebot en sitios de tecnología y SaaS. Ese segmento está creciendo ~5% mes a mes, mientras que los clics orgánicos tradicionales apenas suben 1-2%. Sinceramente, no estoy seguro de que estas tasas de crecimiento se mantengan —podrían estabilizarse, podrían acelerarse. Lo que sí puedo decir es que ignorar el tráfico GEO ahora mismo significa ignorar algo que ya es medible en la mayoría de los sitios tech.

Ruta típica de una cita:

GPTBot obtiene tu página de notas del episodio o tu post del blog →
El texto se vectoriza y se almacena →
Un usuario hace una pregunta →
El modelo recupera tu fragmento y cita la URL →
El usuario hace clic → tú ganas un visitante con alta intención.

Si bloqueas el paso 1, la cadena nunca empieza.

Cómo Cloudflare ahoga por accidente tu visibilidad en asistentes de IA

El Bot Fight Mode de Cloudflare viene con una opción de nombre bastante inocente: "Block AI Scrapers." Una vez activada, cualquier solicitud que coincida con GPTBot, ClaudeBot, PerplexityBot o Google-Extended recibe un desafío o directamente un 403. Como el bloqueo ocurre en el edge, puede que tus logs de origen nunca lo registren —solo las analíticas de Cloudflare muestran un pico de respuestas 4xx para user-agents de IA.

Por qué existe esa opción: Cloudflare está probando un mercado de pago por rastreo en el que grandes proveedores de LLM compran tokens de acceso, y Cloudflare se queda con un 30-40% —muy al estilo del impuesto de la App Store de Apple. Mientras tanto, la configuración por defecto protege el contenido negando acceso a bots de IA que no pagan. Genial para sus márgenes; catastrófico para tu visibilidad. (Entiendo la lógica de negocio. Solo desearía que el valor por defecto no fuera “bloquear todo”.)

Síntomas que vas a ver

Síntoma	Dónde detectarlo	Qué significa
Pico de 403 para GPTBot en los logs de Cloudflare	Security ▸ Events	Bots de IA bloqueados en el edge
ChatGPT Browse cita resúmenes de terceros en lugar de tu dominio	Prueba manual con prompt	El modelo no pudo rastrear tu contenido
La lista de “Sources” de Perplexity te omite pese a tu relevancia temática	Panel de respuesta de Perplexity	Tu página no entró en el índice

Prueba técnica

curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Ejecuta el mismo curl con un UA de navegador normal; obtendrás 200 OK. La diferencia es el bloqueo de bots de IA de Cloudflare.

En resumen: si dejas esa opción activada, en la práctica estás configurando Disallow: / para todos los rastreadores de IA de los que ya depende una parte creciente de la web. Apágala, o crea una regla explícita de permiso para user-agents legítimos, y el tráfico GEO puede empezar a volver en 24-48 horas.

Rastreadores de IA que sí quieres dejar pasar

Bot	Proveedor	Por qué te conviene	User-Agent oficial*
GPTBot	OpenAI	Alimenta las respuestas y citas con enlace en ChatGPT.	`Mozilla/5.0 … GPTBot/1.0`
ClaudeBot	Anthropic	Alimenta las citas en Claude y las consultas con acceso en tiempo real.	`Mozilla/5.0 … ClaudeBot/1.0`
PerplexityBot	Perplexity.ai	Construye el índice de respuestas de Perplexity (el panel de fuentes genera clics).	`Mozilla/5.0 … PerplexityBot/1.0`
Google-Extended	Google	Alimenta el LLM de Gemini; es distinto del Googlebot clásico.	`Mozilla/5.0 (compatible; Google-Extended/1.0…)`
BingBot (Copilot)	Microsoft	Rastrea tanto para Bing search como para las respuestas de IA en Copilot.	`Mozilla/5.0 … bingbot/2.0`

*Los puntos suspensivos (…) indican cadenas estándar de navegador antes del token del bot.

Paso a paso — desactiva el bloqueo de bots de IA en Cloudflare

Inicia sesión en el Dashboard de Cloudflare
Elige el dominio que quieres corregir.
Navega a: Security ▸ Bots
Ubica la opción “Block AI Scrapers”
Está debajo de Bot Fight Mode. Apágala.
(Opcional, pero más seguro) Añade una regla explícita de permiso
- Security ▸ WAF ▸ Custom Rules ▸ Create
- Expresión: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
- Acción: Skip → Bot Fight Mode, Managed Challenge
Purga la caché
Caching ▸ Configuration ▸ Purge Everything para que los bots obtengan respuestas 200 frescas.
Verifica

curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

Deberías ver HTTP/2 200, no 403.

Tiempo total: ~2 minutos. Resultado: los rastreadores de IA por fin pueden leer y citar tus páginas, y con eso vuelve a abrirse la puerta al tráfico GEO.

Robots.txt para una postura SEO centrada en IA

User-agent: * Allow: /

Eso es todo. Un permiso general garantiza que todos los bots legítimos —de búsqueda y de IA— puedan acceder a cada URL pública. Las líneas parciales o heredadas de Disallow: rompen la indexación moderna porque:

Los bots de IA muchas veces no tienen reglas especiales para subdirectorios; un Disallow: /api perdido puede escalar hasta una denegación total.
Los rastreadores futuros heredan esas mismas reglas; tu bloqueo “temporal” se convierte en una exclusión permanente de los datos de entrenamiento.

Si necesitas limitar ancho de banda, usa rate limiting o WAF en Cloudflare, no robots.txt, para mantener la visibilidad de rastreo mientras controlas la carga.

FAQ — Cloudflare, bots de IA y bloqueos

Q 1. El “Bot Fight Mode” de Cloudflare está activado, pero no veo errores en los logs de mi servidor. ¿Por qué?
Cloudflare bloquea a GPTBot y compañía en el edge, así que las respuestas 403 nunca llegan a tu origen. Revisa Cloudflare Dashboard → Security → Events o ejecuta una prueba con curl usando el user-agent del bot; ahí es donde salen a la luz estos bloqueos invisibles.

Q 2. ¿Permitir GPTBot disparará mi factura de ancho de banda?
Un rastreo completo de GPTBot es liviano —solo HTML, sin imágenes, sin CSS, sin ejecución de JS. Para un sitio de 500 páginas normalmente es < 30 MB al mes, muy por debajo de los 100 MB de salida incluidos en el free tier de Cloudflare.

Q 3. ¿Desbloquear rastreadores de IA podría exponer contenido privado o de pago?
Solo si esas URL son accesibles públicamente. Mantén PDFs premium o videos para miembros detrás de headers de autenticación; GPTBot respeta HTTP 401/403 igual que Googlebot. Robots.txt no es una función de seguridad.

Q 4. ¿La lista de “Verified Bot” de Cloudflare incluye rastreadores de IA?
No. GPTBot, ClaudeBot y PerplexityBot todavía no están en la lista Verified Bot de Cloudflare, así que caen en la categoría genérica de “AI Scraper” que se bloquea cuando la opción está activada.

Q 5. ¿Qué pasa con los scrapers de IA sospechosos que drenan ancho de banda?
Crea una regla WAF para permitir solo user-agents legítimos (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) y aplica rate limiting a todo lo demás. Así sigues abierto a las citas, pero te proteges de recolectores desconocidos.

Q 6. Si desbloqueo hoy, ¿qué tan rápido empezarán a citarme los asistentes de IA?
GPTBot vuelve a visitar páginas populares o actualizadas recientemente en 24-72 horas. ChatGPT Browse puede mostrar nuevas citas uno o dos días después. Las páginas con menos tráfico pueden tardar una semana o más. En nuestro caso, la recuperación tomó unos 3 días para nuestras páginas más citadas y unos 10 días para las páginas de menor demanda.

Sigue leyendo

AI Crawler Inspector — Mira exactamente qué bots de IA pueden y no pueden llegar a tu sitio ahora mismo.
AI Crawler Playbook 2025 — Estrategia completa para gestionar el acceso de bots de IA.
LLM.txt Generator — Dale a los rastreadores de IA un resumen estructurado en lugar de bloquearlos.

Imagen

Features

Start boosting your SEO today

Resources

Educate yourself