Wyłącz blokadę botów AI w Cloudflare i pozwól na swobodny przepływ ruchu geotargetowanego

TL;DR: Blokada botów AI w Cloudflare może nieumyślnie zatrzymać GEO-ruch z silników odpowiedzi AI. Poniżej znajdziesz konfigurację, która zatrzymuje scrapery, ale nie odcina cytowań.

(„Ruch GEO” = Generative-Engine-Optimised, czyli wizyty pochodzące od asystentów AI takich jak ChatGPT, Claude, Perplexity czy Gemini.)

Odkryłem to, gdy nasz własny ruch spadł. W lipcu 2025 zauważyłem w SEOJuice Analytics coś dziwnego: wzmianki o marce w odpowiedziach AI wyzerowały się na dwa tygodnie, mimo że tempo publikacji się nie zmieniło. Pół piątkowego popołudnia spędziłem na logach serwera, aż w końcu zajrzałem do Cloudflare. Bingo: „Block AI Scrapers” ustawione na ON. (Dwie kawy na koncie, pisałem zupełnie inny wpis i wtedy mnie olśniło.) Nie pamiętam, żebym to włączał. Może domyślna zmiana przy upgrade’cie planu Cloudflare, a może któryś z inżynierów załączył to podczas ataku DDoS i zapomniał wyłączyć. Tak czy inaczej, GPTBot, ClaudeBot, PerplexityBot, Google-Extended – wszystkie dostawały 403 na krawędzi przez dwa tygodnie. W logach originu cisza, bo żądania nie przechodziły przez Cloudflare.

Kontekst przełącznika: w lipcu 2025 Cloudflare wypuścił funkcję „AIndependence” – domyślnie włączoną blokadę scraperów AI, którą Matthew Prince przedstawił jako ochronę twórców przed „botami AI pobierającymi treści bez zgody ani wynagrodzenia”. Społeczność SEO od razu się podzieliła: wydawcy nienawidzący scrapingu bili brawo, a specjaliści od AI-search (w tym ja) zorientowali się, że właśnie odcięto nam kanał cytowań. Pravin Kumar opisał to później dla Webflow; poniżej masz wersję z harmonogramem odzyskiwania ruchu.

Gdy Cloudflare zwraca 403, ChatGPT korzysta z tego, co znajdzie gdzie indziej: notek z Product Hunt, starych recenzji albo wpisów konkurencji. Tracisz kontrolę nad narracją i – co boli bardziej – link, który sprowadzał wartościowy ruch.

Po wyłączeniu przełącznika i dodaniu jawnej reguły Allow cytowania AI wróciły w 72 godziny (względem 14-dniowej bazy: sesje z referera ChatGPT w GA4, filtrowane po chatgpt.com i perplexity.ai). Dwa tygodnie niewidocznych strat naprawione w dwie minuty. Ten artykuł to właśnie te dwie minuty.

Co naprawdę oznacza „ruch GEO”

Generative-Engine-Optimised (GEO) traffic to odwiedziny, które pojawiają się po zacytowaniu Twoich treści w asystentach AI: ChatGPT „Browse”, migawki Gemini, odpowiedzi Perplexity, paski Copilot, a nawet komunikaty głośników smart. Gdy GPTBot lub ClaudeBot indeksuje stronę, treść i linki trafiają do wektorowej bazy wiedzy. Za każdym razem, gdy model wyświetli Twój akapit z działającym linkiem, część użytkowników klika dalej.

Dlaczego to ważne: według logów SEOJuice z ok. 600 serwisów klientów, renomowane user-agenty AI (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider) wygenerowały w I kw. 2026 ok. 20-30 % liczby żądań klasycznego Googlebota. To nasze dane, skoncentrowane na SaaS i tech, więc nie branżowy konsensus. Cloudflare Radar publikuje własne udziały bot-ruchu; ich odsetek jest niższy, bo obejmuje branże, które AI ignoruje. U nas udział rośnie o kilka punktów procentowych miesięcznie. Czy tempo się utrzyma? Nie wiem. Pewne jest, że ignorowanie tego źródła to dziś ignorowanie mierzalnego ruchu na większości serwisów technologicznych.

Typowa ścieżka cytowania:

GPTBot pobiera Twój wpis lub notkę,
Tekst jest embedowany i magazynowany,
Użytkownik zadaje pytanie,
Model pobiera fragment, cytuje URL,
Użytkownik klika. Zyskujesz odbiorcę o wysokiej intencji.

Zablokuj krok 1, a łańcuch nigdy nie ruszy.

Jak Cloudflare przypadkiem dławi odkrywalność AI

Bot Fight Mode w Cloudflare ma pozornie niewinny przełącznik: „Block AI Scrapers”. Po jego włączeniu każde żądanie z GPTBot, ClaudeBot, PerplexityBot lub Google-Extended dostaje wyzwanie lub 403. Ponieważ blokada dzieje się na krawędzi, logi originu jej nie pokażą; zobaczysz jedynie wzrost odpowiedzi 4xx dla agentów AI w analizach Cloudflare.

Dlaczego to istnieje: Cloudflare testuje rynek pay-per-crawl, gdzie duzi dostawcy LLM kupują tokeny dostępu, a platforma bierze prowizję – coś na kształt opłat w App Store (dokładny podział nie został ujawniony; ogłoszenie Cloudflare celowo nie podaje liczb). Dobre dla marży; bolesne dla serwisów żyjących z cytowań AI. (Rozumiem biznes. Szkoda, że domyślnie blokują wszystko. To moja opinia, nie stanowisko Cloudflare.)

Objawy, które zobaczysz

Objaw	Gdzie sprawdzić	Co oznacza
Wzrost 403 dla GPTBot w logach Cloudflare	Security ▸ Events	Boty AI blokowane na krawędzi
ChatGPT Browse cytuje streszczenia z cudzych domen	Ręczny test promptu	Model nie mógł zindeksować treści
Perplexity „Sources” pomija Cię mimo tematycznej zgodności	Panel odpowiedzi Perplexity	Indeks pominął stronę

Dowód techniczny

curl -I https://seojuice.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403

Ta sama komenda z normalnym UA przyniesie 200 OK. Różnicę robi blokada AI w Cloudflare.

Wniosek: zostawiając przełącznik w ON, ustawiasz efektywnie Disallow: / dla każdego większego crawlera AI. Wyłącz go lub dodaj jawną regułę Allow dla zaufanych agentów, a ruch GEO wróci w 24-48 h.

Crawlery AI, które warto wpuścić

Z poniższej piątki najpierw odblokowałbym GPTBot (wolumen), ClaudeBot niedoceniłem, dopóki cytaty technicznych wpisów nie zaczęły się pojawiać u Anthropic, a Google-Extended jest najcichszy, ale pewnie da najdłuższy ogon. Pełna lista:

Bot	Dostawca	Dlaczego warto	Oficjalny UA*
GPTBot	OpenAI	Zasila odpowiedzi i linki w ChatGPT. Dokumentacja.	`Mozilla/5.0 … GPTBot/1.0`
ClaudeBot	Anthropic	Odpowiada za cytowania w Claude AI i fetch w czasie rzeczywistym.	`Mozilla/5.0 … ClaudeBot/1.0`
PerplexityBot	Perplexity.ai	Buduje indeks odpowiedzi Perplexity (panel źródeł napędza kliknięcia).	`Mozilla/5.0 … PerplexityBot/1.0`
Google-Extended	Google	Dostarcza dane do Gemini LLM; oddzielny od klasycznego Googlebota.	`Mozilla/5.0 (compatible; Google-Extended/1.0…)`
BingBot (Copilot)	Microsoft	Crawl do wyszukiwarki Bing i odpowiedzi Copilot.	`Mozilla/5.0 … bingbot/2.0`

*Wielokropki (…) oznaczają standardowy ciąg przeglądarkowy przed tokenem bota.

Krok po kroku: wyłączanie blokady AI w Cloudflare

Zaloguj się do Cloudflare Dashboard
Wybierz domenę do poprawki.
Nawigacja: Security ▸ Bots
Znajdź przełącznik „Block AI Scrapers”
Znajdziesz go pod Bot Fight Mode. Ustaw OFF.
(Opcjonalnie, ale bezpieczniej) Dodaj jawną regułę Allow
- Security ▸ WAF ▸ Custom Rules ▸ Create
- Wyrażenie: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
- Akcja: Skip → Bot Fight Mode, Managed Challenge
Wyczyść cache
Caching ▸ Configuration ▸ Purge Everything, aby boty pobrały świeże 200.
Zweryfikuj

curl -I https://seojuice.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"

Oczekuj HTTP/2 200, nie 403.

Całość: ok. 2 minuty. Efekt: crawlery AI wreszcie czytają i cytują Twoje strony.

Robots.txt przy strategii AI-First SEO

Wcześniej pisałem, że przełącznik to prawie całe zadanie. Te „prawie” to robots.txt, bo stara linijka Disallow może po cichu cofnąć całą robotę z Cloudflare.

User-agent: * Allow: /

I tyle. Pełne Allow zapewnia dostęp wszystkim renomowanym botom, wyszukiwarkowym i AI. Cząstkowe lub stare linie Disallow: psują nowoczesną indeksację, bo:

Boty AI rzadko mają wyjątki dla podkatalogów; jedno Disallow: /api potrafi przejść w pełne wykluczenie.
Przyszłe crawlery dziedziczą te same zasady; „tymczasowa” blokada staje się trwałym wyłączeniem z danych treningowych.

Jeśli musisz ograniczać transfer, użyj limitów Cloudflare lub WAF, nie robots.txt – utrzymasz widoczność crawlów, kontrolując obciążenie.

FAQ: Cloudflare, boty AI i blokowanie

P 1. Bot Fight Mode jest włączony, ale w logach serwera nie ma błędów. Dlaczego?
Cloudflare blokuje GPTBot i spółkę na krawędzi, więc 403 nie dociera do originu. Sprawdź Cloudflare Dashboard → Security → Events lub użyj curl z UA bota – tam zobaczysz ukryte blokady.

P 2. Czy wpuszczenie GPTBot podniesie mój rachunek za transfer?
Pełen crawl GPTBot jest lekki: sam HTML, bez obrazków, CSS czy JS. Dla 500-stronicowego serwisu to zwykle < 30 MB miesięcznie, czyli poniżej 100 MB darmowego progu egress w Cloudflare Free.

P 3. Czy odblokowanie botów AI ujawni prywatne treści?
Tylko jeśli URL jest publicznie dostępny. Trzymaj płatne PDF-y czy wideo za autoryzacją; GPTBot respektuje HTTP 401/403 jak Googlebot. Robots.txt nie jest zabezpieczeniem: dla dostępnego URL-a to tylko grzeczna sugestia.

P 4. Czy lista „Verified Bot” Cloudflare obejmuje crawlery AI?
Nie. GPTBot, ClaudeBot i PerplexityBot nie są jeszcze zweryfikowane, więc wpadają do ogólnej kategorii „AI Scraper”, która jest blokowana przy włączonym przełączniku.

P 5. A co z podejrzanymi, zasobożernymi scraperami AI?
Stwórz regułę WAF, która dopuszcza tylko renomowane UA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot), a resztę throttluje. Zyskujesz cytowania i chronisz przepustowość.

P 6. Odblokuję dziś – kiedy asystenci AI zaczną mnie znów cytować?
Wspomniałem o 72 godzinach. Skąd ta liczba: na naszych najczęściej cytowanych stronach sesje GA4 z ref. chatgpt.com wróciły do normy po ok. 3 dniach od zmiany przełącznika i czyszczenia cache. Długi ogon trwał bliżej 10 dni. (Sądziłem, że minimum tydzień. Myliłem się.) Według dokumentacji GPTBot, częstotliwość re-crawl zależy od popularności strony i sygnałów aktualizacji, więc Twoje wyniki zależą od wcześniejszego natężenia żądań.

Uruchom to na swojej stronie

Najszybsza weryfikacja: Uruchom AI Crawler Inspector →

Narzędzie sprawdza Twój URL każdym user-agentem AI i pokazuje, które dostają 200, a które 403 – nie musisz czekać trzech dni, żeby sprawdzić, czy ChatGPT Cię znowu łapie.

Czytaj dalej

AI Crawler Playbook 2025: pełna strategia zarządzania dostępem botów AI.
LLM.txt Generator: daj crawlerom AI uporządkowane podsumowanie zamiast blokowania.

Our powerful suite of automation tools for SEO

Learn, discover, and get inspired by our content