seojuice

Deaktivieren Sie die Cloudflare-AI-Bot-Sperre und lassen Sie geo-targetierten Traffic passieren

Vadim Kravcenko
Vadim Kravcenko
· Updated · 9 min read

Aktualisiert Mai 2026

TL;DR: Cloudflares KI-Bot-Blocker kann unbeabsichtigt GEO-Traffic aus Antwort-Engines abwürgen. So richtest du deine Regeln ein, damit die Scraper draußen bleiben, ohne dass du die Zitationen verlierst.

(„GEO-Traffic“ = Generative-Engine-Optimised Traffic von KI-Assistenten wie ChatGPT, Claude, Perplexity und Gemini.)

Ich bin darüber gestolpert, als unser eigener Traffic einbrach. Im Juli 2025 fiel mir in unseren SEOJuice-Analytics etwas Seltsames auf: Brand-Erwähnungen in KI-Antworten waren seit rund zwei Wochen auf Null, obwohl wir unverändert Content publizierten. Nach einem langen Freitagnachmittag in den Server-Logs kam ich auf die Idee, Cloudflare zu prüfen. Da war es: „Block AI Scrapers“ war aktiviert. (Zwei Kaffees intus und mitten in einem völlig anderen Entwurf, bis der Groschen fiel.) Ich erinnere mich nicht, den Schalter umgelegt zu haben. Vielleicht ein Default nach einem Plan-Upgrade oder ein Engineer während einer DDoS-Panik. In jedem Fall bekamen GPTBot, ClaudeBot, PerplexityBot, Google-Extended zwei Wochen lang konsequent ein 403 am Edge. In den Origin-Logs war nichts, weil die Requests nie durchkamen.

Hintergrund zum Schalter: Im Juli 2025 rollte Cloudflare „AIndependence“ aus – ein per Default aktivierter 1-Klick-Block für KI-Scraper. Matthew Prince verkaufte es als Schutz der Creator vor „KI-Bots, die Inhalte ohne Erlaubnis oder Vergütung scrapen“. Die SEO-Szene spaltete sich sofort: Publisher, die Scraping hassen, jubelten; wer wie ich auf AI-Search-Optimierung setzt, merkte, dass die Citation-Pipelines quasi gekappt waren. Pravin Kumar dokumentierte das Ganze später noch einmal speziell für Webflow; hier gibt’s die Version inklusive Zeitlinie zur Wiederherstellung.

Wenn Cloudflare ein 403 liefert, greift ChatGPT auf das zurück, was es sonst irgendwo indexiert: Product-Hunt-Schnipsel, veraltete Reviews oder Texte von Wettbewerbern. Du verlierst die Kontrolle über die Story und – schmerzhafter – den Link, der qualifizierte Besucher direkt zu dir geführt hätte.

Nachdem ich den Schalter wieder deaktiviert und eine explizite Allow-Rule gesetzt hatte, waren unsere KI-Zitationen nach etwa 72 Stunden zurück (gemessen gegen den 14-Tage-Baseline: ChatGPT-Referrer-Sessions in GA4, gefiltert auf chatgpt.com und perplexity.ai source/medium). Zwei Wochen unsichtbarer Schaden, in zwei Minuten behoben. Dieser Artikel ist genau diese Zwei-Minuten-Lösung.

Was „GEO-Traffic“ wirklich bedeutet

Generative-Engine-Optimised (GEO) Traffic bezeichnet Besucher, die kommen, weil dein Content in KI-Assistenten zitiert wird: ChatGPT „Browse“, Gemini-Snapshots, Perplexity-Antworten, Microsoft-Copilot-Sidebars, sogar Smart-Speaker-Replies. Wenn GPTBot oder ClaudeBot eine Seite crawlt, landen Text und Links in einem Vektor-Store, der diese Antworten speist. Taucht dein Absatz samt Live-Link auf, klickt ein Teil der User durch.

Warum das zählt: In unseren SEOJuice-Crawler-Logs über ~600 Kundenseiten erzeugten seriöse KI-User-Agents (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider) im 1. Quartal 2026 rund 20–30 % des Request-Volumens von Googlebot. Das sind unsere Daten, nicht die Branche, und sie sind SaaS-/Tech-lastig. Cloudflare Radar listet eigene Bot-Anteile; deren Quote ist niedriger, weil alle Verticals gemittelt werden, auch solche, die KI-Bots ignorieren. Der Anteil steigt in unserem Sample um ein paar Prozent pro Monat. Ob das anhält? Keine Ahnung. Fakt ist: Wer diese Quelle heute ignoriert, blendet bereits messbaren Traffic aus.

Typischer Citation-Flow:

  1. GPTBot ruft deine Show-Notes oder den Blog-Post ab,

  2. Text wird eingebettet und gespeichert,

  3. Ein User stellt eine Frage,

  4. Das Modell zieht dein Snippet, referenziert die URL,

  5. User klickt. Du erhältst einen High-Intent-Besucher.

Blockierst du Schritt 1, startet die Kette nie.

Wie Cloudflare die KI-Discovery ungewollt abwürgt

Cloudflares Bot Fight Mode enthält einen harmlos klingenden Schalter: „Block AI Scrapers“. Ist er aktiv, werden alle Requests mit GPTBot, ClaudeBot, PerplexityBot oder Google-Extended gechallenged oder direkt mit 403 beantwortet. Weil das am Edge passiert, taucht es in deinen Origin-Logs nicht auf; nur die Cloudflare-Analytics zeigen einen Spike an 4xx-Antworten auf KI-User-Agents.

Warum es den Schalter gibt: Cloudflare pilotiert einen Pay-per-Crawl-Marktplatz, bei dem große LLM-Vendoren Access-Tokens kaufen; Cloudflare kassiert eine Plattform-Fee, ähnlich App-Store-Gebühren (die exakte Marge ist nicht öffentlich; Cloudflares Ankündigung bleibt vage). Gut für die Marge, schlecht für Sites, die auf KI-Zitationen setzen. (Ich verstehe das Geschäftsmodell, hätte mir nur gewünscht, dass „Block alles“ nicht Default ist. Mein Take, kein offizielles Statement.)

Typische Symptome

Symptom Wo prüfen? Bedeutung
Spike an 403 für GPTBot in Cloudflare-Logs Security ▸ Events KI-Bots werden am Edge blockiert
ChatGPT Browse zitiert Fremdquellen statt deiner Domain Manueller Prompt-Test Modell konnte nicht crawlen
Perplexity „Sources“ zeigt dich nicht, obwohl Thema passt Perplexity-Antwortpanel Index hat deine Seite verpasst

Technischer Beweis

curl -I https://seojuice.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Gleicher Curl mit normalem Browser-UA liefert 200 OK. Unterschied: Cloudflares KI-Block.

Bottom Line: Lass den Schalter an und du setzt faktisch Disallow: / für alle großen KI-Crawler. Schalte ihn aus oder lege eine explizite Allow-Rule für seriöse User-Agents an, und GEO-Traffic fließt binnen 24–48 Stunden.

Diese KI-Crawler willst du reinlassen

Von den fünf unten würde ich GPTBot zuerst freigeben (Volumen), ClaudeBot habe ich unterschätzt, bis unsere Tech-Posts bei Anthropic auftauchten, und Google-Extended ist leise, aber mit vermutlich längstem Long-Tail. Die komplette Liste:

Bot Anbieter Warum zulassen? Offizieller UA-String*
GPTBot OpenAI Speist ChatGPT-Antworten und Link-Zitationen. Offizielle Doku. Mozilla/5.0 … GPTBot/1.0
ClaudeBot Anthropic Befeuert Claude-Zitationen und Echtzeit-Fetches. Mozilla/5.0 … ClaudeBot/1.0
PerplexityBot Perplexity.ai Baut Perplexitys Answer-Index (Sources-Panel liefert Klicks). Mozilla/5.0 … PerplexityBot/1.0
Google-Extended Google Versorgt das Gemini-LLM; getrennt von Googlebot. Mozilla/5.0 (compatible; Google-Extended/1.0…)
BingBot (Copilot) Microsoft Crawlt für Bing-Search und Copilot-Antworten. Mozilla/5.0 … bingbot/2.0

*Ellipsen (…) stehen für die üblichen Browser-Strings vor dem Bot-Token.

Step-by-Step: Cloudflares KI-Blockade deaktivieren

  1. Im Cloudflare-Dashboard einloggen
    Domain auswählen, die gefixt werden soll.

  2. Navigieren: Security ▸ Bots

  3. Schalter „Block AI Scrapers“ finden
    Liegt unter Bot Fight Mode. Auf OFF stellen.

  4. (Optional, aber sicherer) Explizite Allow-Rule hinzufügen

    • Security ▸ WAF ▸ Custom Rules ▸ Create

    • Expression: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")

    • Action: Skip → Bot Fight Mode, Managed Challenge

  5. Cache leeren
    Caching ▸ Configuration ▸ Purge Everything, damit Bots frische 200er holen.

  6. Verifizieren

    curl -I https://seojuice.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

    Erwarte HTTP/2 200, nicht 403.

Dauer: ~2 Minuten. Ergebnis: KI-Crawler können wieder lesen und zitieren.

Robots.txt für eine AI-First-SEO-Strategie

Eingangs meinte ich, der Schalter sei fast die ganze Geschichte. Zu 90 % stimmt das. Die restlichen 10 %: deine robots.txt – eine veraltete Disallow-Zeile macht alles wieder zunichte.

User-agent: * Allow: /

Mehr brauchst du nicht. Ein Blanket-Allow öffnet allen seriösen Bots – Search und KI – jede Public-URL. Teilweise oder alte Disallow:-Einträge sabotieren moderne Indexierung, weil:

  • KI-Bots selten Spezialregeln für Subdirectories haben; ein Disallow: /api kann zum Voll-Ausschluss führen.

  • Zukünftige Crawler dieselben Regeln erben; deine „temporäre“ Sperre wird dauerhafte Trainings-Lücke.

Wenn du Bandbreite drosseln musst, nutze Cloudflare-Rate-Limiting oder WAF, nicht robots.txt, damit Crawl-Visibility bleibt.

FAQ: Cloudflare, KI-Bots und Blockaden

F 1. Bot Fight Mode ist an, aber ich sehe keine Fehler in meinen Server-Logs. Warum?
Cloudflare blockiert GPTBot & Co. am Edge, daher erreichen die 403 nie deinen Origin. Schau unter Cloudflare Dashboard → Security → Events oder teste per curl mit dem Bot-UA; dort tauchen die versteckten Blocks auf.

F 2. Treibt das Freigeben von GPTBot meine Bandbreiten-Kosten hoch?
Ein kompletter GPTBot-Crawl ist leichtgewichtig: nur HTML, keine Bilder, kein CSS, kein JS. Bei 500 Seiten < 30 MB/Monat – weit unter der 100-MB-Free-Tier-Egress-Grenze von Cloudflare.

F 3. Öffnet das Unblocken private oder Paywall-Inhalte?
Nur wenn die URLs öffentlich sind. Premium-PDFs oder Member-Videos hinter Auth-Headern halten; GPTBot respektiert HTTP 401/403 wie Googlebot. Robots.txt ist kein Security-Feature: Ist eine URL erreichbar, sind Robots-Direktiven nur ein höflicher Hinweis.

F 4. Enthält Cloudflares „Verified Bot“-Liste KI-Crawler?
Nein. GPTBot, ClaudeBot und PerplexityBot stehen nicht auf der Liste und landen daher im generischen „AI Scraper“-Bucket, der blockiert wird, wenn der Schalter an ist.

F 5. Was ist mit dubiosen, bandbreitenfressenden KI-Scrapern?
Leg eine WAF-Rule an, die nur seriöse UAs (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot) zulässt und rate-limite alles andere. So bleibst du offen für Zitationen, schützt dich aber vor Unbekannten.

F 6. Wenn ich heute unblocke, wie schnell zitieren KI-Assistenten wieder?
Ich erwähnte 72 Stunden. Basis: Auf unseren meistzitierten Seiten kehrten GA4-Sessions mit chatgpt.com-Referrer rund drei Tage nach Schalter-Umschaltung und Cache-Purge zum Baseline zurück. Die Long-Tail-Seiten brauchten eher zehn Tage. (Ich hätte ehrlich mit mindestens einer Woche gerechnet.) Laut OpenAI-Docs variiert die Recrawl-Frequenz mit Popularität und Update-Signalen, deine Zahlen hängen also davon ab, wie oft deine URLs vor dem Block schon angefragt wurden.

Lass es auf deiner Site laufen

Die schnellste Prüfung, ob der Fix greift: AI Crawler Inspector starten →

Das Tool ruft deine URL mit jedem KI-UA ab und zeigt dir, wer 200er und wer 403er bekommt – bevor du drei Tage wartest, ob ChatGPT dich wieder aufnimmt.

Weiterlesen

Image