Disattiva il blocco AI-Bot di Cloudflare e fai scorrere il traffico geotargettizzato

Aggiornato maggio 2026

In breve: il blocco dei bot AI di Cloudflare può accidentalmente tagliare il traffico GEO proveniente dai motori di risposta AI. Ecco come impostare le regole per fermare gli scraper senza perdere le citazioni.

(Qui “traffico GEO” = traffico Generative-Engine-Optimised proveniente da assistenti AI come ChatGPT, Claude, Perplexity e Gemini.)

L’ho scoperto quando il nostro traffico è crollato. A luglio 2025 ho notato qualcosa di strano in SEOJuice: le menzioni del brand nelle risposte AI erano piatte da circa due settimane, anche se la produzione di contenuti era invariata. Ho passato mezzo pomeriggio del venerdì a spulciare i log del server prima di controllare Cloudflare. Ed eccolo lì: “Block AI Scrapers” era attivo. (Ero al secondo caffè e stavo scrivendo un post del tutto diverso quando mi è caduta la proverbiale monetina.) Non ricordo di averlo abilitato: forse è stato un cambio di default durante un upgrade di piano, o un nostro ingegnere lo ha acceso durante un allarme DDoS dimenticandosi poi di disattivarlo. In ogni caso, GPTBot, ClaudeBot, PerplexityBot, Google-Extended: tutti respinti con 403 all’edge per due settimane. Nei log dell’origine non compariva nulla perché le richieste non superavano Cloudflare.

Contesto del toggle: a luglio 2025, Cloudflare ha lanciato “AIndependence”, un blocco one-click (attivo di default) degli scraper AI, presentato da Matthew Prince come tutela per i creator contro “i bot AI che raschiano contenuti senza permesso né compenso”. La community SEO si è divisa subito: gli editori contrari allo scraping hanno esultato, mentre chi fa ottimizzazione per la ricerca AI (me compreso) ha capito che la pipeline di citazioni era stata silenziosamente tagliata. Pravin Kumar ha scritto una versione specifica per Webflow qualche mese dopo; questa è la variante con una timeline di recupero allegata.

Quando Cloudflare restituisce un 403, ChatGPT ripiega su ciò che riesce a indicizzare altrove: blurbs di Product Hunt, recensioni datate o articoli dei competitor. Perdi il controllo della narrazione e (più doloroso) il link che avrebbe portato visitatori qualificati sul tuo sito.

Dopo aver disattivato il toggle e aggiunto una regola di allow esplicita, le nostre citazioni AI sono tornate ai livelli precedenti in circa 72 ore (rispetto alla media dei 14 giorni precedenti: sessioni GA4 con referrer ChatGPT, filtrate per chatgpt.com e perplexity.ai). Due settimane di danni invisibili, risolti in due minuti. Questo articolo è quel fix di due minuti.

Cosa significa davvero “traffico GEO”

Generative-Engine-Optimised (GEO) traffic è il flusso di visitatori che arriva dopo che il tuo contenuto viene citato dagli assistenti AI: ChatGPT “Browse”, snapshot di Gemini, risposte di Perplexity, sidebar di Microsoft Copilot, persino risposte degli smart speaker. Quando GPTBot o ClaudeBot esegue il crawl di una pagina, testo e link finiscono in uno store vettoriale che alimenta queste risposte. Ogni volta che il modello mostra il tuo paragrafo con un link live, una percentuale di utenti ci clicca.

Perché conta: nei log del nostro crawler SEOJuice, su ~600 siti clienti che monitoriamo, gli user-agent AI affidabili (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider) hanno generato circa il 20-30 % del volume di richieste di Googlebot nel Q1 2026. Sono dati interni, non uno studio di settore, e sono sbilanciati su SaaS e tech, dove operiamo. Cloudflare Radar pubblica una sua quota di traffico bot; lì i numeri sono più bassi perché aggregano tutti i verticali, inclusi quelli che i bot AI ignorano. La fetta cresce di qualche punto percentuale al mese nel nostro campione. Non so se questi tassi terranno; potrebbero stabilizzarsi o accelerare. Quello che so è che ignorare ora questa fonte di traffico significa ignorare qualcosa già misurabile sulla maggior parte dei siti tech.

Percorso di citazione tipico:

GPTBot effettua il fetch della tua pagina,
Il testo viene embedded e salvato,
L’utente fa una domanda,
Il modello recupera il tuo snippet, cita l’URL,
L’utente clicca. Ottieni un visitatore ad alta intenzione.

Blocca il passo 1 e la catena non parte mai.

Come Cloudflare soffoca l’indicizzazione AI

La Bot Fight Mode di Cloudflare include un toggle dall’aspetto innocuo: “Block AI Scrapers”. Quando è attivo, qualsiasi richiesta con GPTBot, ClaudeBot, PerplexityBot o Google-Extended viene sfidata o riceve direttamente un 403. Poiché il blocco avviene all’edge, nei log dell’origine potresti non vederlo; solo le analytics di Cloudflare mostrano un picco di risposte 4xx agli user-agent AI.

Perché esiste il toggle: Cloudflare sta sperimentando un marketplace pay-per-crawl in cui i grandi vendor LLM acquistano token di accesso, e Cloudflare trattiene una quota, un po’ come le fee dell’App Store (la percentuale esatta non è pubblica; l’annuncio ufficiale è volutamente vago). Ottimo per i margini di Cloudflare; doloroso per i siti che vivono di citazioni AI. (Capisco la logica di business. Vorrei solo che il default non fosse “blocca tutto”. È la mia lettura, non quella di un dirigente Cloudflare.)

Sintomi che noterai

Sintomo	Dove guardare	Che cosa significa
Picco di 403 per GPTBot nei log Cloudflare	Security ▸ Events	Bot AI bloccati all’edge
ChatGPT Browse cita sintesi di terzi invece del tuo dominio	Test manuale di prompt	Il modello non ha potuto fare crawl
La sezione “Sources” di Perplexity ti ignora pur essendo rilevante	Pannello risposta Perplexity	L’indice ha saltato la tua pagina

Prova tecnica

curl -I https://seojuice.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Esegui lo stesso curl con un UA da browser normale: otterrai 200 OK. La differenza è il blocco AI-bot di Cloudflare.

In sintesi: se lasci il toggle attivo è come impostare Disallow: / per tutti i crawler AI principali. Disattivalo, o crea una regola di Allow esplicita per gli user-agent affidabili, e il traffico GEO ripartirà in 24-48 ore.

Crawler AI che vuoi far entrare

Dei cinque elencati, GPTBot è quello che sbloccherei per primo (volume), ClaudeBot è quello che ho sottovalutato finché le citazioni tecniche non sono comparse su Anthropic, e Google-Extended è il più silenzioso ma probabilmente con la coda più lunga. Ecco la lista completa:

Bot	Vendor	Perché ti serve	User-Agent ufficiale*
GPTBot	OpenAI	Alimenta le risposte e le citazioni link di ChatGPT. Documentazione ufficiale.	`Mozilla/5.0 … GPTBot/1.0`
ClaudeBot	Anthropic	Genera citazioni e fetch in tempo reale di Claude AI.	`Mozilla/5.0 … ClaudeBot/1.0`
PerplexityBot	Perplexity.ai	Costruisce l’indice di risposta di Perplexity (il pannello “sources” porta clic).	`Mozilla/5.0 … PerplexityBot/1.0`
Google-Extended	Google	Rifornisce l’LLM Gemini; distinto da Googlebot classico.	`Mozilla/5.0 (compatible; Google-Extended/1.0…)`
BingBot (Copilot)	Microsoft	Fa crawl sia per la ricerca Bing sia per le risposte Copilot AI.	`Mozilla/5.0 … bingbot/2.0`

*I puntini di sospensione (…) indicano le stringhe browser standard che precedono il token del bot.

Guida pratica: disattivare il blocco AI-bot di Cloudflare

Accedi al Cloudflare Dashboard
Seleziona il dominio da sistemare.
Vai a: Security ▸ Bots
Trova il toggle “Block AI Scrapers”
Si trova sotto Bot Fight Mode. Disattivalo.
(Opzionale ma consigliato) Aggiungi una regola di Allow esplicita
- Security ▸ WAF ▸ Custom Rules ▸ Create
- Espressione: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
- Azione: Skip → Bot Fight Mode, Managed Challenge
Svuota la cache
Caching ▸ Configuration ▸ Purge Everything così i bot riceveranno risposte 200 fresche.
Verifica

curl -I https://seojuice.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

Dovresti vedere HTTP/2 200, non 403.

Tempo totale: ~2 minuti. Risultato: i crawler AI possono finalmente leggere e citare le tue pagine.

Robots.txt per una postura SEO “AI-first”

Prima ho detto che il toggle è quasi tutta la storia. È vero al 90 %. Il resto è il tuo robots.txt, perché una riga Disallow obsoleta annullerà in silenzio ciò che hai appena fatto a livello Cloudflare.

User-agent: * Allow: /

Fine. Un allow globale garantisce che tutti i bot affidabili, di ricerca e AI, possano accedere a ogni URL pubblico. Linee Disallow: parziali o legacy bloccano l’indicizzazione moderna perché:

I bot AI spesso non hanno regole speciali per sottodirectory; un Disallow: /api può trasformarsi in un divieto totale.
I crawler futuri erediteranno le stesse regole; il tuo blocco “temporaneo” diventa esclusione permanente dai dati di training.

Se devi limitare la larghezza di banda, usa il rate-limiting o il WAF di Cloudflare, non robots.txt, così mantieni la visibilità al crawl controllando comunque il carico.

FAQ: Cloudflare, bot AI e blocchi

D 1. Bot Fight Mode è attivo ma non vedo errori nei log del server. Perché?
Cloudflare blocca GPTBot & co all’edge, quindi le risposte 403 non raggiungono l’origine. Controlla Cloudflare Dashboard → Security → Events o fai un curl con l’user-agent del bot; è lì che emergono i blocchi nascosti.

D 2. Consentire GPTBot farà schizzare la banda?
Un crawl completo di GPTBot è leggero: solo HTML, niente immagini, CSS o JS. Per un sito da 500 pagine di solito < 30 MB al mese, ben sotto i 100 MB di egress gratuiti del tier free di Cloudflare.

D 3. Sbloccare i crawler AI può esporre contenuti privati o a pagamento?
Solo se gli URL sono pubblicamente raggiungibili. Tieni PDF premium o video riservati dietro autenticazione; GPTBot rispetta 401/403 come Googlebot. Robots.txt non è un meccanismo di sicurezza: se l’URL è raggiungibile, le direttive robots sono un suggerimento educato, non un cancello.

D 4. La lista “Verified Bot” di Cloudflare include i crawler AI?
No. GPTBot, ClaudeBot e PerplexityBot non sono ancora nella lista verificata, quindi ricadono nel bucket generico “AI Scraper” che viene bloccato se il toggle è attivo.

D 5. E gli scraper AI loschi che consumano banda?
Crea una regola WAF che permetta solo gli user-agent affidabili (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) e fai rate-limit del resto. Rimani aperto alle citazioni ma ti proteggi dagli harvesters sconosciuti.

D 6. Se sblocco oggi, quanto ci metteranno gli assistenti AI a citarmi?
Ho parlato di 72 ore. Viene da qui: sulle nostre pagine più citate, le sessioni GA4 con referrer chatgpt.com sono tornate alla baseline in circa 3 giorni dopo aver girato il toggle e svuotato la cache. La long tail ha impiegato più vicino ai 10 giorni. (Pensavo servisse almeno una settimana ovunque. Mi sbagliavo.) Secondo la documentazione GPTBot di OpenAI, la frequenza di recrawl varia con popolarità e segnali di update, quindi i tuoi tempi dipenderanno da quante richieste ricevevano già le tue URL prima del blocco.

Esegui il test sul tuo sito

Il modo più rapido per verificare subito se il fix funziona sul tuo dominio: Avvia AI Crawler Inspector →

Sonda il tuo URL con ogni user-agent AI e ti dice quali ricevono 200 e quali 403, senza dover attendere tre giorni per capire se ChatGPT ti riprende.

Continua a leggere

AI Crawler Playbook 2025: strategia completa per gestire l’accesso dei bot AI.
LLM.txt Generator: fornisci ai crawler AI un riepilogo strutturato invece di bloccarli.

Our powerful suite of automation tools for SEO

Learn, discover, and get inspired by our content