Désactive le blocage des bots IA de Cloudflare et laisse circuler le trafic GEO

Vadim Kravcenko
Vadim Kravcenko
· 4 min read

TL;DR : le blocage des bots IA de Cloudflare peut, sans le vouloir, couper ton trafic GEO ciblé provenant des moteurs de réponse IA. Voici comment configurer tes règles pour stopper les scrapers sans perdre les citations.

(Ici, « trafic GEO » = trafic Generative-Engine-Optimised issu d’assistants IA comme ChatGPT, Claude, Perplexity et Gemini.)

Je m’en suis rendu compte quand notre propre trafic a chuté. En juillet 2025, j’ai remarqué un truc bizarre dans les analytics de SEOJuice : les mentions de marque dans les réponses IA stagnaient depuis environ deux semaines, alors que notre rythme de publication n’avait pas changé. J’ai passé une bonne partie d’un vendredi après-midi à fouiller les logs serveur avant de penser à vérifier Cloudflare. Et là, c’était évident : l’option « Block AI Scrapers » était activée. Je ne me souviens pas l’avoir activée. C’était peut-être un changement par défaut après une mise à niveau de plan Cloudflare, ou l’un de nos ingénieurs l’a basculée pendant une alerte DDoS puis a oublié de la désactiver. Dans tous les cas, GPTBot, ClaudeBot, PerplexityBot, Google-Extended — tous bloqués par Cloudflare avec une 403 pendant deux semaines d’affilée. Nos logs d’origine ne montraient rien, parce que les requêtes n’allaient jamais au-delà de Cloudflare.

Quand Cloudflare renvoie un 403, ChatGPT se rabat sur ce qu’il peut indexer ailleurs : des blurbs Product Hunt, des avis obsolètes, ou des articles écrits par des concurrents. Tu perds la main sur le récit autour de ta marque et — plus douloureux encore — le lien qui aurait envoyé des visiteurs qualifiés directement vers ton site.

Après avoir désactivé l’option et ajouté une règle d’autorisation explicite, nos citations IA sont revenues en environ 72 heures. Deux semaines de dégâts invisibles, corrigées en deux minutes. Cet article, c’est justement cette correction en deux minutes.

Ce que veut vraiment dire « trafic GEO »

Le trafic Generative-Engine-Optimised (GEO), c’est le flux de visiteurs qui arrivent après que ton contenu a été cité dans des assistants IA — le mode « Browse » de ChatGPT, les snapshots Gemini, les réponses de Perplexity, les sidebars de Microsoft Copilot, voire les réponses d’enceintes connectées. Quand GPTBot ou ClaudeBot crawlent une page, le texte et les liens alimentent une base vectorielle qui sert ensuite à générer ces réponses. Chaque fois que le modèle ressort ton paragraphe avec un lien actif, une partie des utilisateurs clique.

Cloudflare AI audit and control dashboard for managing content crawler access
Cloudflare provides granular controls for managing which AI crawlers can access your content. Source: Cloudflare Blog
Marketing team reviewing B2B analytics dashboard showing traffic and performance data
Understanding traffic patterns helps identify when AI-driven referral visits drop unexpectedly. Source: HubSpot Blog

Pourquoi c’est important : les études basées sur les logs serveur montrent que les bots IA reconnus représentent désormais 20-30% du volume classique de Googlebot sur les sites tech et SaaS. Cette part progresse d’environ 5% mois après mois, pendant que les clics organiques traditionnels n’augmentent que de 1-2%. Honnêtement, je ne sais pas si ces taux de croissance vont tenir — ça peut plafonner, ça peut accélérer. Ce que je peux dire, en revanche, c’est qu’ignorer cette source de trafic aujourd’hui, c’est ignorer quelque chose de déjà mesurable sur la plupart des sites tech.

Parcours typique d’une citation :

  1. GPTBot récupère ta page de show notes ou d’article de blog →

  2. Le texte est vectorisé et stocké →

  3. Un utilisateur pose une question →

  4. Le modèle retrouve ton extrait et cite l’URL →

  5. L’utilisateur clique → tu gagnes un visiteur à forte intention.

Si tu bloques l’étape 1, la chaîne ne se met jamais en route.

Comment le blocage des bots IA de Cloudflare étouffe accidentellement la découverte par les IA

Le Bot Fight Mode de Cloudflare inclut un bouton au nom presque anodin : « Block AI Scrapers ». Une fois activé, toute requête correspondant à GPTBot, ClaudeBot, PerplexityBot ou Google-Extended est soumise à un challenge ou carrément bloquée avec une 403. Comme le blocage se produit chez Cloudflare, tes logs d’origine peuvent ne rien enregistrer du tout — seuls les analytics Cloudflare montrent un pic de réponses 4xx pour les bots IA.

Pourquoi ce bouton existe : Cloudflare teste un marketplace pay-per-crawl dans lequel les gros fournisseurs de LLM achètent des jetons d’accès, et Cloudflare prend une commission de 30-40% — un peu comme la taxe App Store d’Apple. En attendant, le réglage par défaut protège le contenu en refusant les bots IA qui ne paient pas. Super pour leurs marges ; catastrophique pour ta visibilité. (Je comprends la logique commerciale. J’aimerais juste que le réglage par défaut ne soit pas « on bloque tout ».)

Les symptômes que tu vas voir

Symptôme Où le repérer Ce que ça veut dire
Pic de 403 pour GPTBot dans les logs Cloudflare Security ▸ Events Bots IA bloqués chez Cloudflare
ChatGPT Browse cite des résumés tiers au lieu de ton domaine Test manuel via prompt Le modèle n’a pas pu crawler ton contenu
La liste « Sources » de Perplexity t’ignore malgré une vraie pertinence thématique Panneau de réponse Perplexity L’index a raté ta page

Preuve technique

curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Lance le même curl avec un UA de navigateur classique ; tu obtiendras 200 OK. La différence, c’est le blocage des bots IA de Cloudflare.

En clair : si tu laisses l’option activée, tu es en train de poser l’équivalent d’un Disallow: / pour tous les bots IA sur lesquels une partie croissante du web commence à s’appuyer. Désactive-la, ou crée une règle Allow explicite pour les agents utilisateurs reconnus, et le trafic GEO peut recommencer à circuler en 24-48 heures.

Les bots IA que tu veux vraiment laisser entrer

Bot Éditeur Pourquoi tu en veux Chaîne officielle de l’agent utilisateur*
GPTBot OpenAI Alimente les réponses de ChatGPT et les citations avec lien. Mozilla/5.0 … GPTBot/1.0
ClaudeBot Anthropic Alimente les citations de Claude et les accès en temps réel. Mozilla/5.0 … ClaudeBot/1.0
PerplexityBot Perplexity.ai Construit l’index de réponses de Perplexity (le panneau des sources génère des clics). Mozilla/5.0 … PerplexityBot/1.0
Google-Extended Google Alimente le LLM Gemini ; distinct du Googlebot classique. Mozilla/5.0 (compatible; Google-Extended/1.0…)
BingBot (Copilot) Microsoft Crawl à la fois pour la recherche Bing et pour les réponses IA de Copilot. Mozilla/5.0 … bingbot/2.0

*Les points de suspension (…) indiquent les chaînes standard de navigateur qui précèdent le token du bot.

Étape par étape — désactiver le blocage des bots IA dans Cloudflare

  1. Connecte-toi au Dashboard Cloudflare
    Choisis le domaine que tu veux corriger.

  2. Va ici : Security ▸ Bots

  3. Repère le bouton « Block AI Scrapers »
    Il se trouve sous Bot Fight Mode. Désactive-le.

  4. (Optionnel mais plus sûr) Ajoute une règle Allow explicite

    • Security ▸ WAF ▸ Custom Rules ▸ Create

    • Expression : (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")

    • Action : Skip → Bot Fight Mode, Managed Challenge

  5. Vide le cache
    Caching ▸ Configuration ▸ Purge Everything pour que les bots récupèrent des réponses 200 fraîches.

  6. Vérifie

    curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

    Tu dois voir HTTP/2 200, pas 403.

Temps total : ~2 minutes. Résultat : les bots IA peuvent enfin lire et citer tes pages.

Robots.txt pour une posture SEO orientée IA

User-agent: * Allow: /

C’est tout. Une autorisation globale garantit que tous les bots reconnus — recherche et IA — peuvent accéder à chaque URL publique. Les lignes Disallow: partielles ou héritées cassent l’indexation moderne parce que :

  • Les bots IA n’ont souvent pas de règles spéciales pour les sous-répertoires ; un simple Disallow: /api oublié peut se transformer en blocage complet.

  • Les futurs crawlers héritent des mêmes règles ; ton blocage « temporaire » devient une exclusion permanente des données d’entraînement.

Si tu dois limiter la bande passante, utilise le rate limiting de Cloudflare ou le WAF, pas robots.txt, afin de conserver la visibilité au crawl tout en contrôlant la charge.

FAQ — Cloudflare, bots IA et blocage

Q 1. Le « Bot Fight Mode » de Cloudflare est activé, mais je ne vois aucune erreur dans mes logs serveur — pourquoi ?
Cloudflare bloque GPTBot et compagnie chez lui, donc les réponses 403 n’atteignent jamais ton origin. Vérifie Cloudflare Dashboard → Security → Events ou lance un test curl avec l’agent utilisateur du bot ; c’est là que les blocages invisibles apparaissent.

Q 2. Autoriser GPTBot va faire exploser ma facture de bande passante ?
Un crawl complet de GPTBot reste léger — HTML uniquement, pas d’images, pas de CSS, pas d’exécution JS. Pour un site de 500 pages, on est généralement à < 30 MB par mois, bien en dessous de l’allocation de sortie de 100 MB du free tier Cloudflare.

Q 3. Débloquer les crawlers IA peut-il exposer du contenu privé ou payant ?
Oui, mais seulement si les URL sont publiquement accessibles. Garde tes PDF premium ou tes vidéos réservées aux membres derrière une authentification via headers ; GPTBot respecte HTTP 401/403 exactement comme Googlebot. Robots.txt n’est pas une fonctionnalité de sécurité.

Q 4. La liste « Verified Bot » de Cloudflare inclut-elle les crawlers IA ?
Non. GPTBot, ClaudeBot et PerplexityBot ne figurent pas encore dans la liste vérifiée de Cloudflare, donc ils tombent dans la catégorie générique « AI Scraper » qui est bloquée quand le bouton est activé.

Q 5. Et les scrapers IA douteux qui vident ta bande passante ?
Crée une règle WAF pour n’autoriser que les agents utilisateurs reconnus (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) et applique du rate limiting à tout le reste. Tu restes ouvert aux citations, tout en te protégeant des aspirateurs inconnus.

Q 6. Si je débloque aujourd’hui, en combien de temps les assistants IA vont-ils recommencer à me citer ?
GPTBot revisite les pages populaires ou récemment mises à jour sous 24-72 heures. ChatGPT Browse peut afficher de nouvelles citations un ou deux jours plus tard. Les pages moins visitées peuvent prendre une semaine ou plus. Dans notre cas, la reprise a pris environ 3 jours pour nos pages les plus citées et environ 10 jours pour la longue traîne.

Continue ta lecture

Image

SEOJuice
Stay visible everywhere
Get discovered across Google and AI platforms with research-based optimizations.
Works with any CMS
Automated Internal Links
On-Page SEO Optimizations
Get Started Free

no credit card required

More articles

No related articles found.