Cloudflare AI-Bot Block uitschakelen en geo-gericht verkeer laten doorstromen

Bijgewerkt mei 2026

TL;DR: De AI-botblokkering van Cloudflare kan onbedoeld GEO-gerichte trafiek van AI-antwoordmachines blokkeren. Zo stel je je regels zó in dat je de scrapers stopt zonder de citaties kwijt te raken.

("GEO-trafiek" = Generative-Engine-Optimised trafiek van AI-assistenten zoals ChatGPT, Claude, Perplexity en Gemini.)

Ik ontdekte het toen ons eigen verkeer terugliep. In juli 2025 zag ik iets raars in onze SEOJuice-analytics: merkvermeldingen in AI-antwoorden waren al twee weken ingestort, terwijl onze contentoutput gelijk bleef. Na een vrijdagmiddag serverlogs doorspitten dacht ik eraan Cloudflare te checken. Daar stond het: “Block AI Scrapers” aan. (Ik zat aan mijn tweede koffie en was halverwege een totaal ander blog toen het kwartje viel.) Ik herinner me niet dat ik het had ingeschakeld. Misschien een standaardwijziging bij een Cloudflare-upgrade, of een engineer zette het aan tijdens een DDoS-paniek en vergat het terug te draaien. Hoe dan ook: GPTBot, ClaudeBot, PerplexityBot, Google-Extended—allemaal twee weken lang 403’s aan de edge. Origin-logs toonden niets, want de verzoeken kwamen nooit voorbij Cloudflare.

Achtergrond bij die schakelaar: in juli 2025 lanceerde Cloudflare “AIndependence”, een standaard ingeschakelde blokker voor AI-scrapers. CEO Matthew Prince presenteerde het als bescherming van makers tegen “AI-bots die zonder toestemming of vergoeding content schrapen”. De SEO-wereld raakte direct verdeeld: uitgevers die scrapers haten juichten, terwijl mensen die aan AI-searchoptimalisatie doen (waaronder ik) beseften dat onze citaatpijplijn stilletjes was doorgesneden. Pravin Kumar beschreef later een Webflow-variant; dit artikel koppelt er een hersteltijdlijn aan.

Geeft Cloudflare een 403, dan grijpt ChatGPT terug op wat elders te indexeren valt: Product-Hunt-blurbs, verouderde reviews of concurrenten. Je verliest de regie over het verhaal en—pijnlijker—de link die gekwalificeerde bezoekers naar je site zou leiden.

Nadat ik de toggle uitzette en een expliciete allow-regel toevoegde, herstelden onze AI-citaten binnen circa 72 uur (gemeten tegenover het voorafgaande 14-daagse gemiddelde: ChatGPT-referrersessies in GA4, gefilterd op chatgpt.com en perplexity.ai source/medium). Twee weken onzichtbare schade, opgelost in twee minuten. Dit artikel is die twee minuten.

Wat “GEO-trafiek” werkelijk betekent

Generative-Engine-Optimised (GEO) trafiek is de stroom bezoekers die komt nadat jouw content wordt geciteerd in AI-assistenten: ChatGPT “Browse”, Gemini-snapshots, Perplexity-antwoorden, Microsoft Copilot-sidebars, zelfs smart-speaker-reacties. Crawl GPTBot of ClaudeBot een pagina, dan belanden tekst en links in een vectorstore die die antwoorden voedt. Verschijnt je alinea met live link, dan klikt een deel van de gebruikers door.

Waarom dit telt: in onze eigen SEOJuice-crawlerlogs van zo’n 600 klantensites genereerden gerenommeerde AI-user-agents (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider) in Q1 2026 circa 20-30 % van het requestvolume van de klassieke Googlebot. Dat is onze data, geen branchestudie, en het leunt op SaaS- en techcontent. Cloudflare Radar publiceert zijn eigen botaandeel; hun percentage ligt lager omdat zij alle verticals meenemen, inclusief sectoren die AI-bots negeren. Ons sample groeit een paar procent per maand. Of dat zo blijft? Geen idee: kan vlakken af, kan versnellen. Wat ik wél weet: negeer je deze bron nu, dan mis je al meetbaar verkeer op de meeste techsites.

Typisch citaatpad:

GPTBot haalt je show-note of blogpost op,
Tekst wordt ge-embed en opgeslagen,
Gebruiker stelt een vraag,
Model haalt jouw snippet op, citeert de URL,
Gebruiker klikt. Jij krijgt een bezoeker met hoge intentie.

Blokkeer stap 1 en de keten start nooit.

Hoe Cloudflare AI-ontdekking per ongeluk smoort

Cloudflare’s Bot Fight Mode bevat een onschuldig klinkende schakelaar: “Block AI Scrapers”. Staat die aan, dan wordt elk verzoek met GPTBot, ClaudeBot, PerplexityBot of Google-Extended uitgedaagd of direct 403. Omdat dit aan de edge gebeurt, verschijnen de blokken niet in je origin-logs; alleen Cloudflare-analytics toont een piek 4xx-responses op AI-user-agents.

Waarom die schakelaar er is: Cloudflare test een pay-per-crawl-markt waarin grote LLM-vendors toegangstokens kopen; Cloudflare pakt een platform-fee, vergelijkbaar met App-Store-tarieven (het exacte percentage is niet publiek, dus speculaties zijn geruchten; Cloudflare’s aankondiging laat de economie bewust vaag). Goed voor hun marge; pijnlijk voor contentsites die afhankelijk zijn van AI-citaten. (Ik snap hun businesslogica. Ik wou alleen dat de standaard niet “alles blokkeren” was. Dit is mijn lezing, niet die van een Cloudflare-exec.)

Symptomen die je ziet

Symptoom	Waar te zien	Betekenis
Pieker 403’s voor GPTBot in Cloudflare-logs	Security ▸ Events	AI-bots geblokkeerd aan edge
ChatGPT Browse citeert derde-partijsamenvattingen i.p.v. jouw domein	Handmatige prompttest	Model kon je content niet crawlen
Perplexity “Sources” mist jou ondanks relevantie	Perplexity-antwoordpaneel	Index miste je pagina

Technisch bewijs

curl -I https://seojuice.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Draai dezelfde curl met een normale browser-UA en je krijgt 200 OK. Het verschil is Cloudflare’s AI-botblokker.

Conclusie: laat de toggle aan en je zet effectief Disallow: / voor elke grote AI-crawler. Zet ’m uit of maak een expliciete Allow-regel voor betrouwbare user-agents en GEO-trafiek kan binnen 24-48 uur weer stromen.

AI-crawlers die je wél binnen wil laten

Van de vijf hieronder zou ik GPTBot als eerste deblokkeren (volume). ClaudeBot onderschatte ik tot onze technische posts ineens bij Anthropic opdoken, en Google-Extended is het stilste maar heeft vermoedelijk de langste staart. De volledige lijst:

Bot	Vendor	Waarom toelaten	Officiële UA-string*
GPTBot	OpenAI	Voedt ChatGPT-antwoorden en linkcitaten. Officiële docs.	`Mozilla/5.0 … GPTBot/1.0`
ClaudeBot	Anthropic	Levert Claude-citaten en realtime fetches.	`Mozilla/5.0 … ClaudeBot/1.0`
PerplexityBot	Perplexity.ai	Bouwt Perplexity’s antwoordindex (sources-paneel stuurt kliks).	`Mozilla/5.0 … PerplexityBot/1.0`
Google-Extended	Google	Voedt de Gemini-LLM; anders dan klassieke Googlebot.	`Mozilla/5.0 (compatible; Google-Extended/1.0…)`
BingBot (Copilot)	Microsoft	Crawlt voor zowel Bing-zoek als Copilot-antwoorden.	`Mozilla/5.0 … bingbot/2.0`

*Beletseltekens (…) betekenen standaard browser-strings vóór de bot-token.

Stapsgewijs: Cloudflare’s AI-botblokker uitschakelen

Log in op het Cloudflare-dashboard
Kies het domein dat je wilt fixen.
Navigeer: Security ▸ Bots
Zoek de schakelaar “Block AI Scrapers”
Hij staat onder Bot Fight Mode. Zet hem UIT.
(Optioneel maar veiliger) Voeg een expliciete Allow-regel toe
- Security ▸ WAF ▸ Custom Rules ▸ Create
- Expressie: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
- Actie: Skip → Bot Fight Mode, Managed Challenge
Cache legen
Caching ▸ Configuration ▸ Purge Everything zodat bots verse 200’s ophalen.
Verifiëren

curl -I https://seojuice.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

Verwacht HTTP/2 200, niet 403.

Totaaltijd: ± 2 minuten. Resultaat: AI-crawlers kunnen je pagina’s weer lezen en citeren.

Robots.txt voor een AI-first SEO-houding

Ik zei eerder dat de toggle vrijwel het hele verhaal is. Dat klopt voor 90 %. De overige 10 % is je robots.txt, want een oude Disallow-regel maakt stilletjes alles ongedaan wat je net bij Cloudflare fixte.

User-agent: * Allow: /

Dat is alles. Een blanket allow geeft alle betrouwbare bots—zowel search als AI—toegang tot elke publieke URL. Gedeeltelijke of legacy-Disallow:-regels breken moderne indexatie omdat:

AI-bots vaak geen aparte regels voor subdirectories hebben; een losse Disallow: /api kan leiden tot volledige weigering.
Toekomstige crawlers erven dezelfde regels; je “tijdelijke” blokkade wordt permanente trainingsdata-uitsluiting.

Moet je bandbreedte beperken, gebruik Cloudflare-rate-limiting of WAF, niet robots.txt, zodat je crawlzichtbaarheid behoudt en toch de load regelt.

FAQ: Cloudflare, AI-bots en blokkeren

Q 1. Bot Fight Mode staat aan, maar ik zie geen fouten in mijn serverlogs. Hoe kan dat?
Cloudflare blokkeert GPTBot en co. aan de edge, dus de 403’s bereiken je origin niet. Check Cloudflare Dashboard → Security → Events of voer een curl-test uit met de UA van de bot; daar zie je de verborgen blokken.

Q 2. Gaat mijn bandbreedterekening omhoog als ik GPTBot toelaat?
Een volledige GPTBot-crawl is lichtgewicht: alleen HTML, geen afbeeldingen, CSS of JS. Voor een site van 500 pagina’s is dat meestal < 30 MB per maand—ruim onder de 100 MB gratis egress van Cloudflare.

Q 3. Loopt betaald of afgeschermd materiaal risico als ik AI-crawlers toelaat?
Alleen als de URL publiek is. Zet premium PDF’s of ledenvideo’s achter authenticatie; GPTBot respecteert HTTP 401/403 net als Googlebot. Robots.txt is geen beveiliging: als een URL bereikbaar is, zijn robots-directieven slechts beleefdheidsverzoeken.

Q 4. Staat GPTBot op de lijst “Verified Bot” van Cloudflare?
Nee. GPTBot, ClaudeBot en PerplexityBot staan (nog) niet op Cloudflare’s verified-lijst en vallen dus in de generieke “AI Scraper”-bucket die geblokkeerd wordt als de toggle aan staat.

Q 5. Hoe zit het met dubieuze, bandbreedte-slurpende AI-scrapers?
Maak een WAF-regel die alleen betrouwbare user-agents (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) toelaat en rate-limit de rest. Zo blijf je open voor citaties maar scherm je je af tegen onbekende harvesters.

Q 6. Als ik vandaag deblokeer, hoe snel citeren AI-assistenten me dan weer?
Ik noemde 72 uur hierboven. Die komt zo tot stand: op onze meest geciteerde pagina’s keerden GA4-sessies met chatgpt.com-referrer binnen ~3 dagen terug naar het oude niveau nadat we de toggle omzetten en cache leegden. De lange staart duurde dichter bij 10 dagen. (Ik dacht eerlijk gezegd dat het minstens een week zou zijn. Viel mee.) Volgens OpenAI’s GPTBot-docs varieert recrawlfrequentie met paginapopulariteit en update-signalen, dus jouw timing hangt af van hoe vaak je URLs vóór de blokkade al werden aangevraagd.

Run dit op je site

De snelste manier om te verifiëren dat de fix werkt op jouw domein: AI Crawler Inspector →

De tool test je URL met elke AI-user-agent en toont welke 200’s of 403’s terugkeren, zodat je niet drie dagen hoeft te wachten tot ChatGPT je weer oppakt.

Verder lezen

AI Crawler Playbook 2025: volledige strategie voor AI-bottoegang.
LLM.txt-Generator: geef AI-crawlers een gestructureerde samenvatting in plaats van ze te blokkeren.

Our powerful suite of automation tools for SEO

Learn, discover, and get inspired by our content