TL;DR : le blocage des bots IA de Cloudflare peut, sans le vouloir, couper le trafic GEO vers ton site depuis les moteurs de réponse IA. Voici comment régler ça pour stopper les scrapers sans perdre les citations.
(Ici, « trafic GEO » = trafic issu des moteurs de réponse IA, optimisé pour les moteurs génératifs, comme ChatGPT, Claude, Perplexity et Gemini.)
Je m’en suis rendu compte quand notre propre trafic a chuté. En juillet 2025, j’ai remarqué un truc bizarre dans les données de SEOJuice : les mentions de marque dans les réponses IA avaient complètement plafonné pendant environ deux semaines, alors que notre volume de contenu n’avait pas changé. J’ai passé une bonne partie d’un vendredi après-midi à fouiller les logs serveur avant de penser à vérifier Cloudflare. Et là, c’était sous mes yeux : l’option « Block AI Scrapers » était activée. Je ne me souviens pas l’avoir activée. C’était peut-être un changement par défaut après une montée en gamme de notre plan Cloudflare, ou l’un de nos ingénieurs l’a basculée pendant une alerte DDoS puis a oublié de la remettre. Dans tous les cas, GPTBot, ClaudeBot, PerplexityBot, Google-Extended — tous se prenaient des 403 à l’edge pendant deux semaines d’affilée. Nos logs d’origine ne montraient rien, parce que les requêtes n’allaient jamais plus loin que Cloudflare.
Quand Cloudflare renvoie une 403, ChatGPT se rabat sur ce qu’il peut indexer ailleurs : des résumés sur Product Hunt, des avis qui datent, ou des articles de concurrents. Tu perds la main sur le récit autour de ta marque et — plus douloureux encore — le lien qui aurait envoyé des visiteurs qualifiés directement vers ton site.
Après avoir désactivé l’option et ajouté une règle d’autorisation explicite, nos citations IA sont revenues en environ 72 heures. Deux semaines de dégâts invisibles, corrigées en deux minutes. Cet article, c’est justement cette correction en deux minutes.
Le trafic GEO, c’est le flux de visiteurs qui arrivent après que ton contenu a été cité dans des assistants IA — le mode « Browse » de ChatGPT, les aperçus Gemini, les réponses de Perplexity, les panneaux latéraux de Microsoft Copilot, voire les réponses d’enceintes connectées. Quand GPTBot ou ClaudeBot explorent une page, le texte et les liens alimentent une base vectorielle qui sert ensuite à produire ces réponses. Chaque fois que le modèle ressort ton paragraphe avec un lien actif, une partie des utilisateurs clique.


Pourquoi c’est important : les études fondées sur les logs serveur montrent que les crawlers IA réputés représentent désormais 20-30% du volume classique de Googlebot sur les sites tech et SaaS. Cette part progresse d’environ 5% d’un mois sur l’autre, pendant que les clics organiques traditionnels ne montent que de 1-2%. Honnêtement, je ne sais pas si ces taux de croissance vont tenir — ça peut plafonner, ça peut accélérer. Ce que je peux dire, en revanche, c’est qu’ignorer cette source de trafic aujourd’hui, c’est ignorer quelque chose de déjà mesurable sur la plupart des sites tech.
Parcours typique d’une citation :
GPTBot récupère ta page de show notes ou d’article de blog →
Le texte est intégré et stocké →
Un utilisateur pose une question →
Le modèle retrouve ton extrait et cite l’URL →
L’utilisateur clique → tu gagnes un visiteur à forte intention.
Si tu bloques l’étape 1, la chaîne ne démarre jamais.
Le Bot Fight Mode de Cloudflare inclut un bouton au nom presque anodin : « Block AI Scrapers ». Une fois activé, toute requête correspondant à GPTBot, ClaudeBot, PerplexityBot ou Google-Extended est soumise à une vérification anti-bot ou carrément bloquée avec une 403. Comme le blocage se produit à l’edge, tes logs d’origine peuvent ne rien enregistrer du tout — seules les données Cloudflare montrent un pic de réponses 4xx pour les user-agents IA.
Pourquoi ce bouton existe : Cloudflare teste une place de marché de type pay-per-crawl dans laquelle les gros fournisseurs de LLM achètent des jetons d’accès, et Cloudflare prend une commission de 30-40% — un peu comme la taxe App Store d’Apple. En attendant, le réglage par défaut protège le contenu en refusant les bots IA qui ne paient pas. Super pour leurs marges ; catastrophique pour ta visibilité. (Je comprends la logique business. J’aimerais juste que le réglage par défaut ne soit pas « tout bloquer ».)
Les symptômes que tu vas voir
| Symptôme | Où le repérer | Ce que ça signifie |
|---|---|---|
| Pic de 403 pour GPTBot dans les logs Cloudflare | Security ▸ Events | Bots IA bloqués à l’edge |
| ChatGPT Browse cite des résumés tiers au lieu de ton domaine | Test manuel via prompt | Le modèle n’a pas pu explorer ton contenu |
| La liste « Sources » de Perplexity t’ignore malgré une vraie pertinence thématique | Panneau de réponse Perplexity | L’index a raté ta page |
Preuve technique
curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403
Lance le même curl avec un user-agent de navigateur classique ; tu obtiendras 200 OK. La différence, c’est le blocage des bots IA de Cloudflare.
En clair : si tu laisses l’option activée, tu poses en pratique un Disallow: / pour tous les crawlers IA sur lesquels le web commence à s’appuyer. Désactive-la, ou crée une règle Allow explicite pour les user-agents réputés, et le trafic GEO peut revenir en 24-48 heures.
| Bot | Éditeur | Pourquoi tu en veux | Chaîne officielle du user-agent* |
|---|---|---|---|
| GPTBot | OpenAI | Alimente les réponses de ChatGPT et les citations avec lien. | Mozilla/5.0 … GPTBot/1.0 |
| ClaudeBot | Anthropic | Alimente les citations de Claude et les récupérations en temps réel. | Mozilla/5.0 … ClaudeBot/1.0 |
| PerplexityBot | Perplexity.ai | Construit l’index de réponses de Perplexity (le panneau des sources génère des clics). | Mozilla/5.0 … PerplexityBot/1.0 |
| Google-Extended | Alimente le LLM Gemini ; distinct du Googlebot classique. | Mozilla/5.0 (compatible; Google-Extended/1.0…) |
|
| BingBot (Copilot) | Microsoft | Explore à la fois pour la recherche Bing et pour les réponses IA de Copilot. | Mozilla/5.0 … bingbot/2.0 |
*Les points de suspension (…) indiquent les chaînes standard de navigateur qui précèdent le token du bot.
Connecte-toi au Dashboard Cloudflare
Choisis le domaine que tu veux corriger.
Va ici : Security ▸ Bots
Repère le bouton « Block AI Scrapers »
Il se trouve sous Bot Fight Mode. Désactive-le.
(Optionnel mais plus sûr) Ajoute une règle Allow explicite
Security ▸ WAF ▸ Custom Rules ▸ Create
Expression : (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
Action : Skip → Bot Fight Mode, Managed Challenge
Vide le cache
Caching ▸ Configuration ▸ Purge Everything pour que les bots récupèrent de nouvelles réponses 200.
Vérifie
curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"
Tu dois voir HTTP/2 200, pas 403.
Temps total : ~2 minutes. Résultat : les crawlers IA peuvent enfin lire et citer tes pages.
User-agent: * Allow: /
C’est tout. Une autorisation globale garantit que tous les bots réputés — recherche et IA — peuvent accéder à chaque URL publique. Les lignes Disallow: partielles ou héritées cassent l’indexation moderne parce que :
Les bots IA n’ont souvent pas de règles spéciales pour les sous-répertoires ; un simple Disallow: /api qui traîne peut finir par bloquer bien plus que prévu.
Les futurs crawlers héritent des mêmes règles ; ton blocage « temporaire » devient une exclusion permanente des données d’entraînement.
Si tu dois limiter la bande passante, utilise le rate limiting de Cloudflare ou le WAF, pas robots.txt, afin de conserver la visibilité au crawl tout en contrôlant la charge.
Q 1. Le « Bot Fight Mode » de Cloudflare est activé, mais je ne vois aucune erreur dans mes logs serveur — pourquoi ?
Cloudflare bloque GPTBot et compagnie à l’edge, donc les réponses 403 n’atteignent jamais ton origin. Vérifie Cloudflare Dashboard → Security → Events ou lance un test curl avec le user-agent du bot ; c’est là que les blocages invisibles apparaissent.
Q 2. Autoriser GPTBot va faire exploser ma facture de bande passante ?
Un crawl complet de GPTBot reste léger — HTML uniquement, pas d’images, pas de CSS, pas d’exécution JS. Pour un site de 500 pages, on est généralement à < 30 MB par mois, bien en dessous de l’allocation de sortie de 100 MB du plan gratuit Cloudflare.
Q 3. Débloquer les crawlers IA peut-il exposer du contenu privé ou payant ?
Seulement si les URL sont accessibles publiquement. Garde tes PDF premium ou tes vidéos réservées aux membres derrière une authentification via des en-têtes HTTP ; GPTBot respecte HTTP 401/403 exactement comme Googlebot. Robots.txt n’est pas une fonctionnalité de sécurité.
Q 4. La liste « Verified Bot » de Cloudflare inclut-elle les crawlers IA ?
Non. GPTBot, ClaudeBot et PerplexityBot ne figurent pas encore dans la liste vérifiée de Cloudflare, donc ils tombent dans la catégorie générique « AI Scraper » qui est bloquée quand le bouton est activé.
Q 5. Et les scrapers IA douteux qui vident ta bande passante ?
Crée une règle WAF pour n’autoriser que les user-agents réputés (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) et applique du rate limiting à tout le reste. Tu restes ouvert aux citations, tout en te protégeant des collecteurs inconnus.
Q 6. Si je débloque aujourd’hui, en combien de temps les assistants IA vont-ils recommencer à me citer ?
GPTBot revisite les pages populaires ou récemment mises à jour sous 24-72 heures. ChatGPT Browse peut afficher de nouvelles citations un ou deux jours plus tard. Les pages moins visitées peuvent prendre une semaine ou plus. Dans notre cas, la reprise a pris environ 3 jours pour nos pages les plus citées et environ 10 jours pour la longue traîne.

no credit card required
No related articles found.