TL;DR: il blocco degli AI bot di Cloudflare può finire per bloccare per sbaglio il traffico GEO proveniente dagli answer engine AI. Ecco come configurare le regole per fermare gli scraper senza perdere le citazioni.
(Per “traffico GEO” qui intendo traffico Generative-Engine-Optimised da assistenti AI come ChatGPT, Claude, Perplexity e Gemini.)
L’ho scoperto quando è calato il nostro traffico. A luglio 2025 ho notato qualcosa di strano nelle analytics di SEOJuice: le menzioni del brand nelle risposte AI si erano praticamente azzerate da circa due settimane, anche se la nostra produzione di contenuti non era cambiata. Ho passato buona parte di un venerdì pomeriggio a scavare nei server log prima di pensare di controllare Cloudflare. Ed eccolo lì — “Block AI Scrapers” attivato. Non ricordo di averlo abilitato io. Potrebbe essere stato un cambiamento di default durante un upgrade del piano Cloudflare, oppure uno dei nostri ingegneri l’ha acceso durante un allarme DDoS e poi si è dimenticato di spegnerlo. In ogni caso, GPTBot, ClaudeBot, PerplexityBot, Google-Extended — tutti respinti con 403 all’edge per due settimane di fila. Nei log dell’origin non si vedeva nulla perché le richieste non superavano mai Cloudflare.
Quando Cloudflare serve un 403, ChatGPT ripiega su qualunque cosa riesca a indicizzare altrove: descrizioni su Product Hunt, recensioni vecchie, o articoli dei competitor. Tu perdi il controllo della narrativa e — cosa ancora più dolorosa — perdi il link che avrebbe portato visitatori qualificati direttamente sul tuo sito.
Dopo aver disattivato il toggle e aggiunto una regola esplicita di allow, le nostre citazioni AI si sono riprese nel giro di circa 72 ore. Due settimane di danni invisibili, risolte in due minuti. Questo articolo è quella correzione da due minuti.
Il traffico Generative-Engine-Optimised (GEO) è il flusso di visitatori che arriva dopo che i tuoi contenuti vengono citati dentro assistenti AI — ChatGPT “Browse”, snapshot di Gemini, risposte di Perplexity, sidebar di Microsoft Copilot, perfino risposte degli smart speaker. Quando GPTBot o ClaudeBot eseguono il crawl di una pagina, testo e link finiscono in uno store vettoriale che alimenta queste risposte. Ogni volta che il modello mostra un tuo paragrafo con un link live, una percentuale di utenti clicca.


Perché conta: gli studi basati sui server log mostrano che i crawler AI affidabili rappresentano ormai il 20-30% del volume del classico Googlebot sui siti tech e SaaS. Questa quota cresce di circa il 5% mese su mese, mentre i clic organici tradizionali salgono appena dell’1-2%. Onestamente non so se questi tassi di crescita terranno — potrebbero stabilizzarsi, potrebbero accelerare. Quello che posso dire è che ignorare questa fonte di traffico oggi significa ignorare qualcosa che sulla maggior parte dei siti tech è già misurabile.
Percorso tipico della citazione:
GPTBot recupera la tua pagina di show notes o il tuo articolo →
Il testo viene embedded e archiviato →
Un utente fa una domanda →
Il modello recupera il tuo snippet e cita l’URL →
L’utente clicca → tu ottieni un visitatore ad alta intenzione.
Se blocchi il passaggio 1, la catena non parte nemmeno.
Il Bot Fight Mode di Cloudflare include un toggle dal nome apparentemente innocuo: “Block AI Scrapers”. Una volta attivato, qualsiasi richiesta che corrisponde a GPTBot, ClaudeBot, PerplexityBot o Google-Extended viene sottoposta a challenge o direttamente respinta con un 403. Siccome il blocco avviene all’edge, i log dell’origin potrebbero non registrarlo mai — solo le analytics di Cloudflare mostrano un picco di risposte 4xx verso gli user-agent AI.
Perché esiste questo toggle: Cloudflare sta testando un marketplace pay-per-crawl in cui i grandi vendor di LLM acquistano token di accesso e Cloudflare trattiene una quota del 30-40% — un po’ come la tassa dell’App Store di Apple. Nel frattempo, l’impostazione predefinita protegge i contenuti negando l’accesso agli AI bot che non pagano. Ottimo per i loro margini; disastroso per la tua visibilità. (Capisco la logica di business. Vorrei solo che il default non fosse “blocca tutto”.)
Sintomi che vedrai
| Sintomo | Dove individuarlo | Cosa significa |
|---|---|---|
| Picco di 403 per GPTBot nei log Cloudflare | Security ▸ Events | AI bot bloccati all’edge |
| ChatGPT Browse cita riassunti di terze parti invece del tuo dominio | Test manuale con prompt | Il modello non è riuscito a fare crawl dei tuoi contenuti |
| L’elenco “Sources” di Perplexity ti esclude nonostante la rilevanza tematica | Pannello risposta di Perplexity | L’indice ha saltato la tua pagina |
Prova tecnica
curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403
Esegui lo stesso curl con uno UA da browser normale; otterrai 200 OK. La differenza è il blocco AI bot di Cloudflare.
In breve: se lasci il toggle attivo, di fatto stai impostando Disallow: / per ogni crawler AI su cui il web ormai fa affidamento. Spegnilo, oppure crea una regola esplicita di Allow per gli user-agent affidabili, e il traffico GEO può ricominciare a fluire entro 24-48 ore.
| Bot | Vendor | Perché ti serve | Stringa User-Agent ufficiale* |
|---|---|---|---|
| GPTBot | OpenAI | Alimenta le risposte di ChatGPT e le citazioni con link. | Mozilla/5.0 … GPTBot/1.0 |
| ClaudeBot | Anthropic | Supporta le citazioni di Claude AI e i fetch in tempo reale. | Mozilla/5.0 … ClaudeBot/1.0 |
| PerplexityBot | Perplexity.ai | Costruisce l’indice delle risposte di Perplexity (il pannello delle fonti porta clic). | Mozilla/5.0 … PerplexityBot/1.0 |
| Google-Extended | Fornisce dati al LLM Gemini; è separato dal classico Googlebot. | Mozilla/5.0 (compatible; Google-Extended/1.0…) |
|
| BingBot (Copilot) | Microsoft | Fa crawl sia per la ricerca Bing sia per le risposte AI di Copilot. | Mozilla/5.0 … bingbot/2.0 |
*I puntini di sospensione (…) indicano le stringhe browser standard che precedono il token del bot.
Accedi alla Dashboard di Cloudflare
Scegli il dominio che vuoi correggere.
Vai su: Security ▸ Bots
Trova il toggle “Block AI Scrapers”
Si trova sotto Bot Fight Mode. Mettilo su OFF.
(Opzionale ma più sicuro) Aggiungi una regola esplicita di Allow
Security ▸ WAF ▸ Custom Rules ▸ Create
Espressione: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
Azione: Skip → Bot Fight Mode, Managed Challenge
Pulisci la cache
Caching ▸ Configuration ▸ Purge Everything così i bot recuperano nuove risposte 200.
Verifica
curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"
Dovresti vedere HTTP/2 200, non 403.
Tempo totale: ~2 minuti. Risultato: i crawler AI possono finalmente leggere e citare le tue pagine.
User-agent: * Allow: /
Tutto qui. Un allow totale garantisce che tutti i bot affidabili — search e AI — possano accedere a ogni URL pubblico. Le righe Disallow: parziali o legacy rompono l’indicizzazione moderna perché:
Gli AI bot spesso non hanno regole speciali per le sottodirectory; un Disallow: /api lasciato lì per sbaglio può trasformarsi in un blocco completo.
I crawler futuri ereditano le stesse regole; il tuo blocco “temporaneo” diventa un’esclusione permanente dai dati di training.
Se devi limitare la banda, usa il rate limiting di Cloudflare o il WAF, non robots.txt, così mantieni la visibilità di crawl mentre controlli il carico.
D 1. Il “Bot Fight Mode” di Cloudflare è attivo, ma non vedo errori nei server log — perché?
Cloudflare blocca GPTBot e compagnia all’edge, quindi le risposte 403 non arrivano mai al tuo origin. Controlla Cloudflare Dashboard → Security → Events oppure esegui un test curl con lo user-agent del bot; è lì che saltano fuori i blocchi nascosti.
D 2. Consentire GPTBot farà impennare la mia fattura per la banda?
Un crawl completo di GPTBot è leggero — solo HTML, niente immagini, niente CSS, niente esecuzione JS. Per un sito da 500 pagine di solito parliamo di < 30 MB al mese, molto sotto i 100 MB di egress inclusi nel free tier di Cloudflare.
D 3. Sbloccare i crawler AI potrebbe esporre contenuti privati o a pagamento?
Solo se quegli URL sono pubblicamente raggiungibili. Tieni PDF premium o video per membri dietro header di autenticazione; GPTBot rispetta HTTP 401/403 esattamente come Googlebot. Robots.txt non è una funzione di sicurezza.
D 4. La lista “Verified Bot” di Cloudflare include i crawler AI?
No. GPTBot, ClaudeBot e PerplexityBot non sono ancora nella lista verificata di Cloudflare, quindi finiscono nel bucket generico “AI Scraper” che viene bloccato quando il toggle è attivo.
D 5. E gli AI scraper sospetti che consumano banda?
Crea una regola WAF che consenta solo gli user-agent affidabili (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) e applica rate limiting a tutto il resto. Resti aperto alle citazioni, ma ti proteggi dai raccoglitori sconosciuti.
D 6. Se sblocco oggi, quanto ci metteranno gli assistenti AI a citarmi di nuovo?
GPTBot torna sulle pagine popolari o aggiornate di recente entro 24-72 ore. ChatGPT Browse può mostrare nuove citazioni uno o due giorni dopo. Le pagine con meno traffico possono richiedere una settimana o più. Nel nostro caso, il recupero ha richiesto circa 3 giorni per le pagine più citate e circa 10 giorni per la long tail.

no credit card required