Disattiva il blocco AI Bot di Cloudflare e lascia scorrere il traffico GEO

Vadim Kravcenko
Vadim Kravcenko
· 4 min read

TL;DR: il blocco degli AI bot di Cloudflare può finire per bloccare per sbaglio il traffico GEO proveniente dagli answer engine AI. Ecco come configurare le regole per fermare gli scraper senza perdere le citazioni.

(Per “traffico GEO” qui intendo traffico Generative-Engine-Optimised da assistenti AI come ChatGPT, Claude, Perplexity e Gemini.)

L’ho scoperto quando è calato il nostro traffico. A luglio 2025 ho notato qualcosa di strano nelle analytics di SEOJuice: le menzioni del brand nelle risposte AI si erano praticamente azzerate da circa due settimane, anche se la nostra produzione di contenuti non era cambiata. Ho passato buona parte di un venerdì pomeriggio a scavare nei server log prima di pensare di controllare Cloudflare. Ed eccolo lì — “Block AI Scrapers” attivato. Non ricordo di averlo abilitato io. Potrebbe essere stato un cambiamento di default durante un upgrade del piano Cloudflare, oppure uno dei nostri ingegneri l’ha acceso durante un allarme DDoS e poi si è dimenticato di spegnerlo. In ogni caso, GPTBot, ClaudeBot, PerplexityBot, Google-Extended — tutti respinti con 403 all’edge per due settimane di fila. Nei log dell’origin non si vedeva nulla perché le richieste non superavano mai Cloudflare.

Quando Cloudflare serve un 403, ChatGPT ripiega su qualunque cosa riesca a indicizzare altrove: descrizioni su Product Hunt, recensioni vecchie, o articoli dei competitor. Tu perdi il controllo della narrativa e — cosa ancora più dolorosa — perdi il link che avrebbe portato visitatori qualificati direttamente sul tuo sito.

Dopo aver disattivato il toggle e aggiunto una regola esplicita di allow, le nostre citazioni AI si sono riprese nel giro di circa 72 ore. Due settimane di danni invisibili, risolte in due minuti. Questo articolo è quella correzione da due minuti.

Cosa significa davvero “traffico GEO”

Il traffico Generative-Engine-Optimised (GEO) è il flusso di visitatori che arriva dopo che i tuoi contenuti vengono citati dentro assistenti AI — ChatGPT “Browse”, snapshot di Gemini, risposte di Perplexity, sidebar di Microsoft Copilot, perfino risposte degli smart speaker. Quando GPTBot o ClaudeBot eseguono il crawl di una pagina, testo e link finiscono in uno store vettoriale che alimenta queste risposte. Ogni volta che il modello mostra un tuo paragrafo con un link live, una percentuale di utenti clicca.

Cloudflare AI audit and control dashboard for managing content crawler access
Cloudflare provides granular controls for managing which AI crawlers can access your content. Source: Cloudflare Blog
Marketing team reviewing B2B analytics dashboard showing traffic and performance data
Understanding traffic patterns helps identify when AI-driven referral visits drop unexpectedly. Source: HubSpot Blog

Perché conta: gli studi basati sui server log mostrano che i crawler AI affidabili rappresentano ormai il 20-30% del volume del classico Googlebot sui siti tech e SaaS. Questa quota cresce di circa il 5% mese su mese, mentre i clic organici tradizionali salgono appena dell’1-2%. Onestamente non so se questi tassi di crescita terranno — potrebbero stabilizzarsi, potrebbero accelerare. Quello che posso dire è che ignorare questa fonte di traffico oggi significa ignorare qualcosa che sulla maggior parte dei siti tech è già misurabile.

Percorso tipico della citazione:

  1. GPTBot recupera la tua pagina di show notes o il tuo articolo →

  2. Il testo viene embedded e archiviato →

  3. Un utente fa una domanda →

  4. Il modello recupera il tuo snippet e cita l’URL →

  5. L’utente clicca → tu ottieni un visitatore ad alta intenzione.

Se blocchi il passaggio 1, la catena non parte nemmeno.

Come Cloudflare soffoca per sbaglio la discovery AI

Il Bot Fight Mode di Cloudflare include un toggle dal nome apparentemente innocuo: “Block AI Scrapers”. Una volta attivato, qualsiasi richiesta che corrisponde a GPTBot, ClaudeBot, PerplexityBot o Google-Extended viene sottoposta a challenge o direttamente respinta con un 403. Siccome il blocco avviene all’edge, i log dell’origin potrebbero non registrarlo mai — solo le analytics di Cloudflare mostrano un picco di risposte 4xx verso gli user-agent AI.

Perché esiste questo toggle: Cloudflare sta testando un marketplace pay-per-crawl in cui i grandi vendor di LLM acquistano token di accesso e Cloudflare trattiene una quota del 30-40% — un po’ come la tassa dell’App Store di Apple. Nel frattempo, l’impostazione predefinita protegge i contenuti negando l’accesso agli AI bot che non pagano. Ottimo per i loro margini; disastroso per la tua visibilità. (Capisco la logica di business. Vorrei solo che il default non fosse “blocca tutto”.)

Sintomi che vedrai

Sintomo Dove individuarlo Cosa significa
Picco di 403 per GPTBot nei log Cloudflare Security ▸ Events AI bot bloccati all’edge
ChatGPT Browse cita riassunti di terze parti invece del tuo dominio Test manuale con prompt Il modello non è riuscito a fare crawl dei tuoi contenuti
L’elenco “Sources” di Perplexity ti esclude nonostante la rilevanza tematica Pannello risposta di Perplexity L’indice ha saltato la tua pagina

Prova tecnica

curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Esegui lo stesso curl con uno UA da browser normale; otterrai 200 OK. La differenza è il blocco AI bot di Cloudflare.

In breve: se lasci il toggle attivo, di fatto stai impostando Disallow: / per ogni crawler AI su cui il web ormai fa affidamento. Spegnilo, oppure crea una regola esplicita di Allow per gli user-agent affidabili, e il traffico GEO può ricominciare a fluire entro 24-48 ore.

I crawler AI che vuoi davvero far entrare

Bot Vendor Perché ti serve Stringa User-Agent ufficiale*
GPTBot OpenAI Alimenta le risposte di ChatGPT e le citazioni con link. Mozilla/5.0 … GPTBot/1.0
ClaudeBot Anthropic Supporta le citazioni di Claude AI e i fetch in tempo reale. Mozilla/5.0 … ClaudeBot/1.0
PerplexityBot Perplexity.ai Costruisce l’indice delle risposte di Perplexity (il pannello delle fonti porta clic). Mozilla/5.0 … PerplexityBot/1.0
Google-Extended Google Fornisce dati al LLM Gemini; è separato dal classico Googlebot. Mozilla/5.0 (compatible; Google-Extended/1.0…)
BingBot (Copilot) Microsoft Fa crawl sia per la ricerca Bing sia per le risposte AI di Copilot. Mozilla/5.0 … bingbot/2.0

*I puntini di sospensione (…) indicano le stringhe browser standard che precedono il token del bot.

Passo dopo passo — disattiva il blocco AI bot di Cloudflare

  1. Accedi alla Dashboard di Cloudflare
    Scegli il dominio che vuoi correggere.

  2. Vai su: Security ▸ Bots

  3. Trova il toggle “Block AI Scrapers”
    Si trova sotto Bot Fight Mode. Mettilo su OFF.

  4. (Opzionale ma più sicuro) Aggiungi una regola esplicita di Allow

    • Security ▸ WAF ▸ Custom Rules ▸ Create

    • Espressione: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")

    • Azione: Skip → Bot Fight Mode, Managed Challenge

  5. Pulisci la cache
    Caching ▸ Configuration ▸ Purge Everything così i bot recuperano nuove risposte 200.

  6. Verifica

    curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

    Dovresti vedere HTTP/2 200, non 403.

Tempo totale: ~2 minuti. Risultato: i crawler AI possono finalmente leggere e citare le tue pagine.

Robots.txt per una postura SEO AI-first

User-agent: * Allow: /

Tutto qui. Un allow totale garantisce che tutti i bot affidabili — search e AI — possano accedere a ogni URL pubblico. Le righe Disallow: parziali o legacy rompono l’indicizzazione moderna perché:

  • Gli AI bot spesso non hanno regole speciali per le sottodirectory; un Disallow: /api lasciato lì per sbaglio può trasformarsi in un blocco completo.

  • I crawler futuri ereditano le stesse regole; il tuo blocco “temporaneo” diventa un’esclusione permanente dai dati di training.

Se devi limitare la banda, usa il rate limiting di Cloudflare o il WAF, non robots.txt, così mantieni la visibilità di crawl mentre controlli il carico.

FAQ — Cloudflare, AI bot e blocchi

D 1. Il “Bot Fight Mode” di Cloudflare è attivo, ma non vedo errori nei server log — perché?
Cloudflare blocca GPTBot e compagnia all’edge, quindi le risposte 403 non arrivano mai al tuo origin. Controlla Cloudflare Dashboard → Security → Events oppure esegui un test curl con lo user-agent del bot; è lì che saltano fuori i blocchi nascosti.

D 2. Consentire GPTBot farà impennare la mia fattura per la banda?
Un crawl completo di GPTBot è leggero — solo HTML, niente immagini, niente CSS, niente esecuzione JS. Per un sito da 500 pagine di solito parliamo di < 30 MB al mese, molto sotto i 100 MB di egress inclusi nel free tier di Cloudflare.

D 3. Sbloccare i crawler AI potrebbe esporre contenuti privati o a pagamento?
Solo se quegli URL sono pubblicamente raggiungibili. Tieni PDF premium o video per membri dietro header di autenticazione; GPTBot rispetta HTTP 401/403 esattamente come Googlebot. Robots.txt non è una funzione di sicurezza.

D 4. La lista “Verified Bot” di Cloudflare include i crawler AI?
No. GPTBot, ClaudeBot e PerplexityBot non sono ancora nella lista verificata di Cloudflare, quindi finiscono nel bucket generico “AI Scraper” che viene bloccato quando il toggle è attivo.

D 5. E gli AI scraper sospetti che consumano banda?
Crea una regola WAF che consenta solo gli user-agent affidabili (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) e applica rate limiting a tutto il resto. Resti aperto alle citazioni, ma ti proteggi dai raccoglitori sconosciuti.

D 6. Se sblocco oggi, quanto ci metteranno gli assistenti AI a citarmi di nuovo?
GPTBot torna sulle pagine popolari o aggiornate di recente entro 24-72 ore. ChatGPT Browse può mostrare nuove citazioni uno o due giorni dopo. Le pagine con meno traffico possono richiedere una settimana o più. Nel nostro caso, il recupero ha richiesto circa 3 giorni per le pagine più citate e circa 10 giorni per la long tail.

Continua a leggere

Immagine