TL;DR: blokada botów AI w Cloudflare może przypadkiem odciąć ruch GEO z odpowiedzi generowanych przez AI. Jeśli włączysz ją bez wyjątków, boty takie jak GPTBot czy ClaudeBot nie pobiorą twoich treści, a wtedy cytowania i kliknięcia z ChatGPT, Perplexity czy Gemini po prostu znikają. Poniżej pokażę ci, jak ustawić reguły tak, żeby zatrzymać agresywne scrapery, ale nie stracić wartościowego ruchu GEO.
(„Ruch GEO” = ruch Generative-Engine-Optimised z asystentów AI takich jak ChatGPT, Claude, Perplexity i Gemini.)
Odkryłem to, kiedy spadł nam własny ruch. W lipcu 2025 zauważyłem coś dziwnego w analityce SEOJuice: wzmianki o marce w odpowiedziach AI niemal zamarły na około dwa tygodnie, mimo że tempo publikacji treści się nie zmieniło. Spędziłem sporą część piątkowego popołudnia, grzebiąc w logach serwera, zanim w ogóle przyszło mi do głowy sprawdzić Cloudflare. I tam to było — włączone „Block AI Scrapers”. Nie pamiętam, żebym to aktywował. Może to była domyślna zmiana po przejściu na wyższy plan Cloudflare, a może jeden z naszych inżynierów przełączył to podczas małej paniki związanej z DDoS i potem zapomniał wyłączyć. Tak czy inaczej, GPTBot, ClaudeBot, PerplexityBot, Google-Extended — wszystkie były blokowane kodem 403 już po stronie Cloudflare przez pełne dwa tygodnie. W logach serwera źródłowego nie było nic, bo te żądania nigdy nie przeszły przez Cloudflare.
Kiedy Cloudflare zwraca 403, ChatGPT opiera się wtedy na tym, co zdołał zindeksować gdzie indziej: opisach z Product Hunt, nieaktualnych recenzjach albo tekstach konkurencji. Tracisz kontrolę nad narracją i — co boli bardziej — link, który mógłby przyprowadzić wartościowego użytkownika prosto na twoją stronę.
Po wyłączeniu tego przełącznika i dodaniu jawnej reguły zezwalającej nasze cytowania w AI wróciły w około 72 godziny. Dwa tygodnie niewidzialnych strat, naprawione w dwie minuty. Ten artykuł to właśnie ta dwuminutowa poprawka.
Ruch Generative-Engine-Optimised (GEO) to strumień odwiedzin, który pojawia się wtedy, gdy twoje treści zostają zacytowane w asystentach AI — ChatGPT Browse, podglądach Gemini, odpowiedziach Perplexity, panelach Microsoft Copilot, a nawet odpowiedziach z inteligentnych głośników. Gdy GPTBot albo ClaudeBot skanuje stronę, treść i linki trafiają do indeksu, który zasila te odpowiedzi. Za każdym razem, gdy model pokazuje twój akapit z aktywnym linkiem, część użytkowników klika dalej.


Dlaczego to ważne: badania logów serwerowych pokazują, że wiarygodne boty AI odpowiadają już za 20-30% klasycznego wolumenu Googlebota na stronach technologicznych i SaaS. Ten udział rośnie o około 5% z miesiąca na miesiąc, podczas gdy tradycyjne kliknięcia organiczne zwiększają się ledwie o 1-2%. Szczerze mówiąc, nie mam pewności, czy to tempo wzrostu się utrzyma — może się wypłaszczyć, może przyspieszyć. Ale jedno mogę powiedzieć na pewno: ignorowanie tego źródła ruchu dziś oznacza ignorowanie czegoś, co na większości stron tech da się już normalnie zmierzyć.
Typowa ścieżka cytowania:
GPTBot pobiera twoją stronę z opisem odcinka, artykuł blogowy albo inną publiczną podstronę →
Treść trafia do indeksu i zostaje zapisana →
Użytkownik zadaje pytanie →
Model wybiera twój fragment i cytuje URL →
Użytkownik klika → ty zyskujesz odwiedzającego z wysoką intencją.
Zablokuj krok 1, a cały łańcuch nigdy się nie zacznie.
Bot Fight Mode w Cloudflare ma niegroźnie brzmiący przełącznik: „Block AI Scrapers”. Gdy go włączysz, każde żądanie pasujące do GPTBot, ClaudeBot, PerplexityBot albo Google-Extended trafia na challenge albo od razu dostaje 403. Ponieważ blokada dzieje się po stronie Cloudflare, logi twojego serwera źródłowego mogą tego w ogóle nie zarejestrować — tylko analityka Cloudflare pokaże skok odpowiedzi 4xx dla identyfikatorów botów AI.
Po co ten przełącznik w ogóle istnieje: Cloudflare testuje model pay-per-crawl, w którym duzi dostawcy LLM kupują tokeny dostępu, a Cloudflare bierze z tego 30-40% prowizji — trochę jak podatek Apple App Store. W międzyczasie domyślne ustawienie chroni treści, odcinając niepłacące boty AI. Świetne dla ich marży; fatalne dla twojej widoczności. (Rozumiem ich logikę biznesową. Po prostu wolałbym, żeby domyślną opcją nie było „zablokuj wszystko”.)
Objawy, które zobaczysz
| Objaw | Gdzie to zauważysz | Co to oznacza |
|---|---|---|
| Nagły wzrost 403 dla GPTBot w logach Cloudflare | Security ▸ Events | Boty AI są blokowane po stronie Cloudflare |
| ChatGPT Browse cytuje podsumowania z zewnętrznych stron zamiast twojej domeny | Ręczne sprawdzenie w promptach | Model nie mógł pobrać twoich treści |
| Lista „Sources” w Perplexity cię pomija mimo zgodności tematycznej | Panel odpowiedzi Perplexity | Indeks pominął twoją stronę |
Dowód techniczny
curl -I https://yourdomain.com/ --user-agent "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.0" HTTP/2 403
Uruchom ten sam curl ze zwykłym identyfikatorem przeglądarki, a dostaniesz 200 OK. Różnica to właśnie blokada botów AI w Cloudflare.
Wniosek: jeśli zostawisz ten przełącznik włączony, to w praktyce ustawiasz Disallow: / dla każdego bota AI, na którym opiera się dzisiejsza sieć. Wyłącz go albo stwórz jawną regułę typu Allow dla zaufanych identyfikatorów, a ruch GEO może zacząć wracać w ciągu 24-48 godzin.
| Bot | Dostawca | Dlaczego warto go wpuścić | Oficjalny identyfikator użytkownika* |
|---|---|---|---|
| GPTBot | OpenAI | Zasila odpowiedzi ChatGPT i cytowania z linkami. | Mozilla/5.0 … GPTBot/1.0 |
| ClaudeBot | Anthropic | Napędza cytowania w Claude i pobieranie treści w czasie rzeczywistym. | Mozilla/5.0 … ClaudeBot/1.0 |
| PerplexityBot | Perplexity.ai | Buduje indeks odpowiedzi Perplexity (panel źródeł generuje kliknięcia). | Mozilla/5.0 … PerplexityBot/1.0 |
| Google-Extended | Dostarcza dane do Gemini LLM; działa niezależnie od klasycznego Googlebota. | Mozilla/5.0 (compatible; Google-Extended/1.0…) |
|
| BingBot (Copilot) | Microsoft | Skanuje zarówno pod Bing search, jak i odpowiedzi AI w Copilot. | Mozilla/5.0 … bingbot/2.0 |
*Wielokropek (…) oznacza standardowy fragment identyfikatora przeglądarki poprzedzający token bota.
Zaloguj się do Cloudflare Dashboard
Wybierz domenę, którą chcesz naprawić.
Przejdź do: Security ▸ Bots
Znajdź przełącznik „Block AI Scrapers”
Jest pod Bot Fight Mode. Przełącz na OFF.
(Opcjonalne, ale bezpieczniejsze) Dodaj jawną regułę zezwalającą
Security ▸ WAF ▸ Custom Rules ▸ Create
Wyrażenie: (http.user_agent contains "GPTBot") or (http.user_agent contains "ClaudeBot") or (http.user_agent contains "PerplexityBot") or (http.user_agent contains "Google-Extended") or (http.user_agent contains "bingbot")
Akcja: Skip → Bot Fight Mode, Managed Challenge
Wyczyść cache
Caching ▸ Configuration ▸ Purge Everything, żeby boty pobrały świeże odpowiedzi 200.
Zweryfikuj
curl -I https://yourdomain.com/ \ -A "Mozilla/5.0 AppleWebKit/537.36; compatible; GPTBot/1.0"
Powinieneś zobaczyć HTTP/2 200, a nie 403.
Łączny czas: ~2 minuty. Efekt: boty AI mogą wreszcie czytać i cytować twoje strony.
User-agent: * Allow: /
I to wszystko. Taka globalna reguła zezwalająca sprawia, że wszystkie zaufane boty — wyszukiwarkowe i AI — mają dostęp do każdego publicznego URL. Częściowe albo stare reguły Disallow: psują nowoczesną indeksację, bo:
Boty AI często nie mają specjalnych zasad dla podkatalogów; jedno przypadkowe Disallow: /api może skończyć się pełną blokadą.
Przyszłe boty dziedziczą te same reguły; twoja „tymczasowa” blokada zamienia się w trwałe wykluczenie z danych treningowych.
Jeśli naprawdę musisz ograniczyć zużycie pasma, użyj ograniczania liczby żądań w Cloudflare albo WAF, a nie robots.txt, żeby zachować widoczność dla botów i jednocześnie kontrolować obciążenie.
P 1. Bot Fight Mode w Cloudflare jest włączony, ale nie widzę żadnych błędów w logach serwera — dlaczego?
Cloudflare blokuje GPTBot i resztę już po swojej stronie, więc odpowiedzi 403 nigdy nie docierają do twojego serwera źródłowego. Sprawdź Cloudflare Dashboard → Security → Events albo uruchom test curl z identyfikatorem bota; właśnie tam wychodzą na jaw te ukryte blokady.
P 2. Czy dopuszczenie GPTBot podbije mi rachunek za transfer?
Pełny crawl GPTBot jest lekki — samo HTML, bez obrazków, bez CSS, bez wykonywania JS. Dla strony z 500 podstronami to zwykle < 30 MB miesięcznie, czyli dużo mniej niż 100 MB limitu egress w darmowym planie Cloudflare.
P 3. Czy odblokowanie botów AI może wystawić prywatny albo płatny content?
Tylko jeśli te URL-e są publicznie dostępne. Trzymaj premium PDF-y albo materiały dla członków za nagłówkami autoryzacji; GPTBot respektuje HTTP 401/403 tak samo jak Googlebot. Robots.txt nie jest mechanizmem bezpieczeństwa.
P 4. Czy lista „Verified Bot” w Cloudflare obejmuje boty AI?
Nie. GPTBot, ClaudeBot i PerplexityBot nie są jeszcze na liście zweryfikowanych botów Cloudflare, więc wpadają do jednej kategorii „AI Scraper”, która jest blokowana, gdy przełącznik jest włączony.
P 5. A co z podejrzanymi scraperami AI, które zjadają transfer?
Utwórz regułę WAF, która przepuszcza tylko zaufane identyfikatory użytkownika (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, bingbot), a całą resztę obejmij ograniczaniem liczby żądań. Dzięki temu pozostajesz otwarty na cytowania, ale bronisz się przed nieznanymi agresywnymi zbieraczami danych.
P 6. Jeśli odblokuję je dziś, jak szybko asystenci AI zaczną mnie cytować?
GPTBot wraca na popularne albo świeżo zaktualizowane strony w ciągu 24-72 godzin. ChatGPT Browse może pokazać nowe cytowania dzień lub dwa później. Mniej odwiedzane strony mogą potrzebować tygodnia albo więcej. U nas odbudowa zajęła około 3 dni dla najczęściej cytowanych stron i około 10 dni dla długiego ogona.

no credit card required
No related articles found.