seojuice

Désactivez le blocage des bots IA dans Cloudflare et laissez circuler le trafic géociblé

Vadim Kravcenko
Vadim Kravcenko
· Updated · 9 min read

Mise à jour : mai 2026

TL;DR : Le blocage des bots IA de Cloudflare peut, par erreur, filtrer le trafic GEO issu des moteurs de réponses IA. Voici comment ajuster vos règles afin de stopper les scrapers sans perdre les citations.

(« Trafic GEO » ici = trafic Generative-Engine-Optimised provenant d’assistants IA tels que ChatGPT, Claude, Perplexity et Gemini.)

Je l’ai découvert après une chute de notre propre trafic. En juillet 2025, j’ai remarqué quelque chose d’étrange dans nos analytics SEOJuice : les mentions de marque dans les réponses IA étaient nulles depuis environ deux semaines, alors que notre production de contenu n’avait pas bougé. Après un vendredi après-midi passé à fouiller les logs serveur, j’ai fini par vérifier Cloudflare. Et là : « Block AI Scrapers » était activé. (Deux cafés dans le sang et en plein brouillon d’un article sans rapport quand l’ampoule s’est allumée.) Je ne me souviens pas l’avoir coché. Peut-être un réglage par défaut lors d’une montée de plan Cloudflare, ou un ingénieur qui l’a activé pendant une alerte DDoS puis oublié. Résultat : GPTBot, ClaudeBot, PerplexityBot, Google-Extended : tous renvoyés en 403 à la périphérie pendant deux semaines. Nos logs d’origine ne montraient rien, les requêtes n’allaient jamais plus loin que Cloudflare.

Contexte du bouton : en juillet 2025, Cloudflare a lancé « AIndependence », un blocage des scrapers IA activé par défaut en un clic, Matthew Prince le présentant comme une protection des créateurs contre « les bots IA qui aspirent le contenu sans permission ni compensation ». La communauté SEO s’est aussitôt divisée : les éditeurs hostiles au scraping ont applaudi, tandis que les spécialistes de l’optimisation pour la recherche IA (dont moi) ont compris que nos canaux de citation venaient d’être coupés. Pravin Kumar a rédigé quelques mois plus tard une version Webflow du même constat ; voici la variante assortie d’un calendrier de récupération.

Quand Cloudflare renvoie un 403, ChatGPT se rabat sur ce qu’il peut indexer ailleurs : blurbs Product Hunt, avis obsolètes ou articles de concurrents. Vous perdez la maîtrise du récit et, plus douloureux encore, le lien qui aurait amené des visiteurs qualifiés sur votre site.

Après avoir désactivé le bouton et ajouté une règle d’autorisation explicite, nos citations IA sont revenues en environ 72 heures (comparé à la ligne de base des 14 jours précédents : sessions à référent ChatGPT dans GA4, filtrées sur chatgpt.com et perplexity.ai source/medium). Deux semaines de dégâts invisibles, réparés en deux minutes. Cet article est ce correctif de deux minutes.

Que signifie réellement le « trafic GEO » ?

Le trafic Generative-Engine-Optimised (GEO) désigne les visiteurs qui arrivent après que votre contenu a été cité dans des assistants IA : ChatGPT « Browse », instantanés Gemini, réponses Perplexity, volets Microsoft Copilot, voire réponses d’enceintes connectées. Quand GPTBot ou ClaudeBot crawle une page, le texte et les liens alimentent un magasin vectoriel qui sert ces réponses. Chaque fois que le modèle fait remonter votre paragraphe avec un lien actif, un pourcentage d’utilisateurs cliquent.

Pourquoi c’est important : dans nos propres logs de crawler SEOJuice, sur les ~600 sites clients suivis, les user-agents IA réputés (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider) ont généré environ 20 à 30 % du volume de requêtes de Googlebot classique au T1 2026. Ce sont nos chiffres, pas une étude sectorielle, biaisés SaaS/tech. Cloudflare Radar publie sa part de trafic bot si vous voulez une seconde source ; leurs chiffres sont plus bas car ils agrègent tous les verticaux, y compris ceux ignorés par les bots IA. La part croît de quelques points par mois sur notre échantillon. Impossible de dire si le rythme tiendra. Ce qui est sûr : ignorer cette source, c’est déjà ignorer un trafic mesurable sur la plupart des sites tech.

Chaîne de citation typique :

  1. GPTBot récupère votre page de show-notes ou de blog,

  2. Le texte est embarqué et stocké,

  3. L’utilisateur pose une question,

  4. Le modèle ressort votre extrait, cite l’URL,

  5. L’utilisateur clique. Vous gagnez un visiteur à forte intention.

Bloquez l’étape 1 et la chaîne ne démarre jamais.

Comment Cloudflare étrangle involontairement la découverte IA

Le Bot Fight Mode de Cloudflare inclut un bouton apparemment anodin : « Block AI Scrapers ». Une fois activé, toute requête où figure GPTBot, ClaudeBot, PerplexityBot ou Google-Extended est challengée ou directement renvoyée en 403. Comme le blocage se fait à l’edge, vos logs d’origine ne le voient pas ; seuls les analytics Cloudflare affichent un pic de réponses 4xx pour ces user-agents.

Pourquoi ce bouton existe : Cloudflare pilote un marché pay-per-crawl où les gros éditeurs de LLM achètent des jetons d’accès, Cloudflare prélevant apparemment une commission significative, façon App Store (le pourcentage exact n’est pas public, méfiez-vous des chiffres qui circulent ; l’annonce officielle reste floue). Bon pour leurs marges ; compliqué pour les sites qui dépendent des citations IA. (Je comprends la logique business. Je regrette juste que le par défaut soit « tout bloquer ». C’est ma lecture, pas celle d’un cadre Cloudflare.)

Signes à surveiller

Symptôme Où le voir Interprétation
Pic de 403 pour GPTBot dans les logs Cloudflare Security ▸ Events Bots IA bloqués à l’edge
ChatGPT Browse cite des résumés tiers plutôt que votre domaine Test manuel de prompt Le modèle n’a pas pu crawler votre contenu
La liste « Sources » de Perplexity vous omet malgré la pertinence Panneau de réponse Perplexity L’index a raté votre page

Preuve technique

curl -I https://seojuice.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Lancez la même commande avec un UA de navigateur normal ; vous obtiendrez 200 OK. La différence vient du blocage IA de Cloudflare.

En résumé : laisser le bouton activé revient à poser un Disallow: / pour tous les gros crawlers IA. Désactivez-le, ou créez une règle Allow explicite pour les user-agents réputés, et le trafic GEO peut reprendre sous 24-48 heures.

Les crawlers IA que vous voulez laisser passer

Parmi les cinq ci-dessous, GPTBot est celui à débloquer en premier si vous manquez de temps (volume), ClaudeBot est celui que j’ai sous-estimé jusqu’à voir nos citations techniques apparaître côté Anthropic, et Google-Extended est le plus discret mais sans doute celui à la plus longue traîne. Liste complète :

Bot Éditeur Pourquoi l’accepter User-Agent officiel*
GPTBot OpenAI Alimente les réponses et citations de ChatGPT. Docs officielles. Mozilla/5.0 … GPTBot/1.0
ClaudeBot Anthropic Génère les citations Claude AI et les fetchs temps réel. Mozilla/5.0 … ClaudeBot/1.0
PerplexityBot Perplexity.ai Construit l’index de réponses Perplexity (le panneau « sources » génère des clics). Mozilla/5.0 … PerplexityBot/1.0
Google-Extended Google Alimente le LLM Gemini ; distinct de Googlebot classique. Mozilla/5.0 (compatible; Google-Extended/1.0…)
BingBot (Copilot) Microsoft Crawle pour la recherche Bing et les réponses Copilot IA. Mozilla/5.0 … bingbot/2.0

*Les points de suspension (…) représentent la chaîne navigateur standard précédant le token bot.

Pas à pas : désactiver le blocage des bots IA sur Cloudflare

  1. Connectez-vous au tableau de bord Cloudflare
    Sélectionnez le domaine à corriger.

  2. Naviguez : Security ▸ Bots

  3. Trouvez le bouton « Block AI Scrapers »
    Il se trouve sous Bot Fight Mode. Désactivez-le.

  4. (Optionnel mais plus sûr) Ajoutez une règle Allow explicite

    • Security ▸ WAF ▸ Custom Rules ▸ Create

    • Expression : (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")

    • Action : Skip → Bot Fight Mode, Managed Challenge

  5. Purger le cache
    Caching ▸ Configuration ▸ Purge Everything pour que les bots obtiennent des 200 frais.

  6. Vérifier

    curl -I https://seojuice.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

    Vous devez obtenir HTTP/2 200, pas 403.

Durée totale : ~2 minutes. Résultat : les crawlers IA peuvent enfin lire et citer vos pages.

Robots.txt pour une posture SEO orientée IA

J’ai dit plus haut que le bouton faisait tout. C’est vrai à 90 %. Les 10 % restants sont dans votre robots.txt : une directive Disallow obsolète annulera en silence ce que vous venez de corriger côté Cloudflare.

User-agent: *
Allow: /

C’est tout. Un allow global garantit que tous les bots réputés, search comme IA, accèdent à chaque URL publique. Des lignes Disallow: partielles ou héritées cassent l’indexation moderne parce que :

  • Les bots IA gèrent rarement des règles spéciales par sous-dossier ; un simple Disallow: /api peut s’étendre en refus total.

  • Les crawlers futurs reprennent les mêmes règles ; votre blocage « temporaire » devient une exclusion permanente des données d’entraînement.

Si vous devez limiter la bande passante, utilisez le rate-limiting ou le WAF Cloudflare, pas robots.txt, afin de conserver la visibilité tout en contrôlant la charge.

FAQ : Cloudflare, bots IA et blocage

Q 1. Bot Fight Mode est activé, mais je ne vois aucune erreur dans mes logs serveur. Pourquoi ?
Cloudflare bloque GPTBot & Cie à l’edge ; les 403 n’atteignent donc jamais votre origin. Consultez Cloudflare Dashboard → Security → Events ou faites un curl avec l’user-agent du bot ; c’est là que les blocages cachés apparaissent.

Q 2. Autoriser GPTBot va-t-il faire exploser ma facture de bande passante ?
Un crawl complet GPTBot est léger : HTML seul, pas d’images, pas de CSS, pas d’exécution JS. Pour un site de 500 pages, c’est typiquement < 30 MB par mois, bien en dessous des 100 MB de sortie du palier gratuit Cloudflare.

Q 3. Débloquer les crawlers IA risque-t-il d’exposer du contenu privé ou payant ?
Uniquement si les URLs sont publiques. Maintenez vos PDF premium ou vidéos membres derrière une authentification ; GPTBot respecte les 401/403 comme Googlebot. Robots.txt n’est pas une mesure de sécurité : si l’URL est accessible, les directives robots sont une suggestion, pas un verrou.

Q 4. La liste « Verified Bot » de Cloudflare inclut-elle les crawlers IA ?
Non. GPTBot, ClaudeBot et PerplexityBot n’y figurent pas encore, ils tombent donc dans le seau générique « AI Scraper » bloqué quand le bouton est actif.

Q 5. Comment gérer les scrapers IA douteux qui siphonnent la bande passante ?
Créez une règle WAF pour n’autoriser que les user-agents réputés (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) et appliquez un rate-limit au reste. Vous restez ouvert aux citations tout en filtrant les aspirateurs inconnus.

Q 6. Si je débloque aujourd’hui, à quelle vitesse les assistants IA vont-ils recommencer à me citer ?
J’ai mentionné 72 heures plus haut. D’où vient ce chiffre : sur nos pages les plus citées, les sessions GA4 avec référent chatgpt.com sont revenues à la normale en environ 3 jours après désactivation du bouton et purge du cache. La longue traîne a pris plutôt 10 jours. (Je pensais sincèrement qu’il faudrait au moins une semaine partout ; non.) D’après les docs GPTBot d’OpenAI, la fréquence de recrawl varie selon la popularité et les signaux de mise à jour ; vos délais dépendent donc de la cadence de requêtes avant le blocage.

Testez sur votre site

Le moyen le plus rapide de vérifier que le correctif fonctionne, sur votre domaine : Lancer AI Crawler Inspector →

L’outil interroge votre URL avec chaque user-agent IA et indique lesquels obtiennent des 200 versus des 403, sans attendre trois jours que ChatGPT vous reprenne.

Pour aller plus loin

Image

SEOJuice
Stay visible everywhere
Get discovered across Google and AI platforms with research-based optimizations.
Works with any CMS
Automated Internal Links
On-Page SEO Optimizations
Get Started Free

no credit card required

More articles

No related articles found.