Desactiva el bloqueo de bots de IA en Cloudflare y deja fluir el tráfico GEO objetivo

TL;DR: el bloqueo de bots de IA de Cloudflare puede terminar bloqueando por accidente el tráfico GEO objetivo que llega desde motores de respuesta con IA. Aquí te explico cómo configurar tus reglas para frenar a los scrapers sin perder citas, visibilidad ni visitas desde ChatGPT, Claude, Perplexity o Gemini.

(Aquí, “tráfico GEO” = tráfico optimizado para motores generativos que llega desde asistentes de IA como ChatGPT, Claude, Perplexity y Gemini.)

Descubrí esto cuando nuestro propio tráfico cayó. En julio de 2025, noté algo raro en las analíticas de SEOJuice: las menciones de marca en respuestas de IA se habían quedado planas durante unas dos semanas, aunque nuestra producción de contenido no había cambiado. Me pasé buena parte de un viernes por la tarde revisando logs del servidor antes de pensar en mirar Cloudflare. Y ahí estaba: "Block AI Scrapers" activado. No recuerdo haberlo encendido. Puede que haya sido un cambio por defecto al pasar a un plan superior de Cloudflare, o que uno de nuestros ingenieros lo activara durante un susto de DDoS y luego se olvidara de apagarlo. Como sea, GPTBot, ClaudeBot, PerplexityBot, Google-Extended: todos recibiendo 403 en el perímetro de Cloudflare durante dos semanas seguidas. Nuestros logs de origen no mostraban nada porque las solicitudes ni siquiera llegaban a pasar Cloudflare.

Cuando Cloudflare devuelve un 403, ChatGPT recurre a lo que pueda indexar en otro lado: descripciones en Product Hunt, reseñas desactualizadas o artículos de competidores. Pierdes el control de la narrativa y —más doloroso todavía— el enlace que habría llevado visitantes calificados directo a tu sitio.

Después de apagar la opción y añadir una regla explícita de permiso, las citas de nuestro contenido en respuestas de IA se recuperaron en unas 72 horas. Dos semanas de daño invisible, arregladas en dos minutos. Este artículo es esa solución de dos minutos.

Qué significa realmente el “tráfico GEO”

El tráfico GEO es el flujo de visitantes que llega después de que tu contenido aparece citado dentro de asistentes de IA: ChatGPT con "Browse", snapshots de Gemini, respuestas de Perplexity, paneles laterales de Microsoft Copilot e incluso respuestas de altavoces inteligentes. Cuando GPTBot o ClaudeBot rastrean una página, el texto y los enlaces se incorporan a un índice vectorial que alimenta esas respuestas. Cada vez que el modelo muestra tu párrafo con un enlace activo, un porcentaje de usuarios hace clic.

Cloudflare AI audit and control dashboard for managing content crawler access — Cloudflare provides granular controls for managing which AI crawlers can access your content. Source: Cloudflare Blog

Marketing team reviewing B2B analytics dashboard showing traffic and performance data — Understanding traffic patterns helps identify when AI-driven referral visits drop unexpectedly. Source: HubSpot Blog

Por qué importa esto: estudios basados en logs del servidor muestran que los rastreadores de IA legítimos ya representan 20-30% del volumen clásico de Googlebot en sitios de tecnología y SaaS. Ese segmento está creciendo ~5% mes a mes, mientras que los clics orgánicos tradicionales apenas suben 1-2%. Sinceramente, no estoy seguro de que estas tasas de crecimiento se mantengan —podrían estabilizarse, podrían acelerarse. Lo que sí puedo decir es que ignorar esta fuente de tráfico ahora mismo significa ignorar algo que ya es medible en la mayoría de los sitios tech.

Ruta típica de una cita:

GPTBot obtiene tu página de notas o tu página del blog →
El texto se procesa y se almacena →
Un usuario hace una pregunta →
El modelo recupera tu fragmento y cita la URL →
El usuario hace clic → tú ganas un visitante con alta intención.

Si bloqueas el paso 1, la cadena nunca empieza.

Cómo Cloudflare ahoga por accidente el descubrimiento en IA

El Bot Fight Mode de Cloudflare viene con una opción de nombre bastante inocente: "Block AI Scrapers." Una vez activada, cualquier solicitud que coincida con GPTBot, ClaudeBot, PerplexityBot o Google-Extended recibe un desafío o directamente un 403. Como el bloqueo ocurre en el perímetro, puede que tus logs de origen nunca lo registren —solo las analíticas de Cloudflare muestran un pico de respuestas 4xx para agentes de usuario de IA.

Por qué existe esa opción: Cloudflare está probando un mercado de pago por rastreo en el que grandes proveedores de LLM compran tokens de acceso, y Cloudflare se queda con un 30-40% —muy al estilo del impuesto de la App Store de Apple. Mientras tanto, la configuración por defecto protege el contenido negando acceso a bots de IA que no pagan. Genial para sus márgenes; catastrófico para tu visibilidad. (Entiendo la lógica de negocio. Solo desearía que el valor por defecto no fuera “bloquear todo”.)

Síntomas que vas a ver

Síntoma	Dónde detectarlo	Qué significa
Pico de 403 para GPTBot en los logs de Cloudflare	Security ▸ Events	Bots de IA bloqueados en el perímetro
ChatGPT con Browse cita resúmenes de terceros en lugar de tu dominio	Prueba manual con prompt	El modelo no pudo rastrear tu contenido
La lista de “Sources” de Perplexity te omite pese a tu relevancia temática	Panel de respuesta de Perplexity	El índice no incorporó tu página

Prueba técnica

curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Ejecuta el mismo curl con un UA de navegador normal; obtendrás 200 OK. La diferencia es el bloqueo de bots de IA de Cloudflare.

En resumen: si dejas esa opción activada, en la práctica estás configurando Disallow: / para todos los rastreadores de IA de los que ya depende una parte creciente de la web. Apágala, o crea una regla explícita de Allow para agentes de usuario legítimos, y el tráfico GEO puede empezar a fluir en 24-48 horas.

Rastreadores de IA que sí quieres dejar pasar

Bot	Proveedor	Por qué te conviene	Cadena oficial de User-Agent*
GPTBot	OpenAI	Alimenta las respuestas y citas con enlace en ChatGPT.	`Mozilla/5.0 … GPTBot/1.0`
ClaudeBot	Anthropic	Alimenta las citas en Claude y las consultas en tiempo real.	`Mozilla/5.0 … ClaudeBot/1.0`
PerplexityBot	Perplexity.ai	Construye el índice de respuestas de Perplexity (el panel de fuentes genera clics).	`Mozilla/5.0 … PerplexityBot/1.0`
Google-Extended	Google	Alimenta el LLM de Gemini; es distinto del Googlebot clásico.	`Mozilla/5.0 (compatible; Google-Extended/1.0…)`
BingBot (Copilot)	Microsoft	Rastrea tanto para Bing search como para las respuestas de IA en Copilot.	`Mozilla/5.0 … bingbot/2.0`

*Los puntos suspensivos (…) indican cadenas estándar de navegador antes del token del bot.

Paso a paso — desactiva el bloqueo de bots de IA en Cloudflare

Inicia sesión en el Dashboard de Cloudflare
Elige el dominio que quieres corregir.
Navega a: Security ▸ Bots
Ubica la opción “Block AI Scrapers”
Está debajo de Bot Fight Mode. Apágala.
(Opcional, pero más seguro) Añade una regla explícita de permiso
- Security ▸ WAF ▸ Custom Rules ▸ Create
- Expresión: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
- Acción: Skip → Bot Fight Mode, Managed Challenge
Purga la caché
Caching ▸ Configuration ▸ Purge Everything para que los bots reciban respuestas 200 frescas.
Verifica

curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

Deberías ver HTTP/2 200, no 403.

Tiempo total: ~2 minutos. Resultado: los rastreadores de IA por fin pueden leer y citar tus páginas.

Robots.txt para una postura SEO pensada para IA

User-agent: * Allow: /

Eso es todo. Un permiso general garantiza que todos los bots legítimos —de búsqueda y de IA— puedan acceder a cada URL pública. Las líneas parciales o heredadas de Disallow: rompen la indexación moderna porque:

Los bots de IA muchas veces no tienen reglas especiales para subdirectorios; un Disallow: /api perdido puede terminar escalando hasta una denegación total.
Los rastreadores futuros heredan esas mismas reglas; tu bloqueo “temporal” se convierte en una exclusión permanente de los datos de entrenamiento.

Si necesitas limitar ancho de banda, usa limitación de tasa de Cloudflare o WAF, no robots.txt, para mantener la visibilidad de rastreo mientras controlas la carga.

FAQ — Cloudflare, bots de IA y bloqueos

Q 1. El “Bot Fight Mode” de Cloudflare está activado, pero no veo errores en los logs de mi servidor. ¿Por qué?
Cloudflare bloquea a GPTBot y compañía en el perímetro, así que las respuestas 403 nunca llegan a tu origen. Revisa Cloudflare Dashboard → Security → Events o ejecuta una prueba con curl usando el agente de usuario del bot; ahí es donde salen a la luz estos bloqueos invisibles.

Q 2. ¿Permitir GPTBot disparará mi factura de ancho de banda?
Un rastreo completo de GPTBot es liviano —solo HTML, sin imágenes, sin CSS, sin ejecución de JS. Para un sitio de 500 páginas normalmente es < 30 MB al mes, muy por debajo de los 100 MB de salida incluidos en el plan gratuito de Cloudflare.

Q 3. ¿Desbloquear rastreadores de IA podría exponer contenido privado o de pago?
Solo si esas URL son accesibles públicamente. Mantén PDFs premium o videos para miembros detrás de cabeceras de autenticación; GPTBot respeta HTTP 401/403 igual que Googlebot. Robots.txt no es una función de seguridad.

Q 4. ¿La lista de “Verified Bot” de Cloudflare incluye rastreadores de IA?
No. GPTBot, ClaudeBot y PerplexityBot todavía no están en la lista de bots verificados de Cloudflare, así que caen en la categoría genérica de “AI Scraper” que se bloquea cuando la opción está activada.

Q 5. ¿Qué pasa con los scrapers de IA sospechosos que drenan ancho de banda?
Crea una regla WAF para permitir solo agentes de usuario legítimos (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) y aplica limitación de tasa a todo lo demás. Así sigues abierto a las citas, pero te proteges de recolectores desconocidos.

Q 6. Si desbloqueo hoy, ¿qué tan rápido empezarán a citarme los asistentes de IA?
GPTBot vuelve a visitar páginas populares o actualizadas recientemente en 24-72 horas. ChatGPT con Browse puede mostrar nuevas citas uno o dos días después. Las páginas con menos tráfico pueden tardar una semana o más. En nuestro caso, la recuperación tomó unos 3 días para nuestras páginas más citadas y unos 10 días para la cola larga.

Sigue leyendo

AI Crawler Inspector — Mira exactamente qué bots de IA pueden y no pueden llegar a tu sitio ahora mismo.
AI Crawler Playbook 2025 — Estrategia completa para gestionar el acceso de bots de IA.
LLM.txt Generator — Dale a los rastreadores de IA un resumen estructurado en lugar de bloquearlos.

Imagen

Features

Start boosting your SEO today

Resources

Educate yourself