TL;DR: 20+ AI-crawlers scannen het web nu elk uur. Zo herken je ze, beheer je hun toegang en haal je verkeer uit AI-zoekmachines.
Laten we eerlijk zijn: Google was vroeger de enige verkeersbron waar we ons druk om maakten. We vochten om rankings in de blauwe links, maten impressies in Search Console en dachten dat dat het hele spel was. Maar inmiddels trekt er elk uur een nieuwe lichting bots over je site heen — GPTBot, ClaudeBot, PerplexityBot, Google-Extended en nog twee dozijn andere. Ze vechten niet om posities in de SERP; ze voeden ChatGPT-antwoorden, Copilot-samenvattingen en AI-zoekwidgets die op telefoons, dashboards en slimme speakers opduiken.
Alleen al vorige maand bezochten de bots van OpenAI het web 569 miljoen keer; Anthropic noteerde 370 miljoen bezoeken. Tel daar Perplexity en Googles eigen Gemini-crawler bij op, en AI-verkeer is nu al ongeveer een derde van Googles klassieke crawlvolume — en het groeit jaar op jaar met 400 procent. Startups in een vroege fase die deze crawlers bewust hebben toegelaten, zien hun merk nu al terug in AI-antwoorden, productvergelijkingen en zelfs spraakassistenten. De rest van ons? Onzichtbaar, tenzij iemand exact onze merknaam in een zoekbalk tikt.
Als je een bedrijf runt, is dat tegelijk de kans en het risico. Een paar simpele aanpassingen in je robots.txt-bestand en een duidelijkere contentstructuur kunnen je duizenden stille aanbevelingen opleveren in AI-gegenereerde antwoorden. Negeer je deze verschuiving, dan klinkt een concurrent met de helft van jouw marketingbudget in elk chatvenster als de marktleider.
Ik moet wel iets vooraf duidelijk maken: we zijn dit bij SEOJuice ook nog steeds aan het uitvogelen. Sinds begin 2025 volgen we het gedrag van AI-crawlers binnen ons klantenbestand, en die data verandert van maand tot maand. Een deel van wat ik hieronder deel, is gebaseerd op patronen die we op honderden sites hebben bevestigd. Een ander deel is een onderbouwde inschatting op basis van serverlogs en correlaties in timing. Ik zal zo duidelijk mogelijk aangeven wat wat is.
Zie AI-crawlers als de volgende generatie webspiders. Traditionele zoekbots — Googlebot, Bingbot — bezoeken je pagina's om te bepalen hoe ze in zoekresultaten worden gerangschikt. AI-crawlers lezen je content juist om large language models (LLMs) te leren hoe ze vragen moeten beantwoorden. Wanneer GPTBot van OpenAI jouw artikel binnenhaalt, beoordeelt die niet of jij positie #1 in een SERP verdient; hij beslist of jouw alinea het waard is om geciteerd te worden wanneer miljoenen gebruikers ChatGPT om advies vragen. Dat is een compleet nieuw distributiekanaal.


De schaal begint klassieke zoekontdekking nu al te benaderen. In de afgelopen twaalf maanden groeide GPTBot-verkeer jaar op jaar met 400 procent. Sites die deze bots bewust toelieten en hun content zo structureerden dat die makkelijk te parsen was, zagen een stijging van 67 procent in merkvermeldingen binnen AI-gegenereerde antwoorden — volgens interne data van SEOJuice over ongeveer 800 gevolgde domeinen, dus neem dat met de nodige voorzichtigheid vanwege mogelijke vertekening in de steekproef.
Ondertussen zitten de meeste concurrenten nog steeds naar Search Console te staren, zonder te beseffen dat een kwart van hun serverlogs uit LLM-crawlers bestaat die hun expertise stilletjes indexeren — of overslaan.
Recht voor z'n raap: als Google het afgelopen decennium de inboundgroei heeft bepaald, dan zal AI-ontdekking het volgende decennium bepalen. Dat gezegd hebbende: niemand weet precies hoe snel die overgang gaat. Ik heb founders gesproken die 15% van hun verkeer naar AI-verwijzingen zagen verschuiven, en anderen in exact dezelfde niche die bijna niets zagen. De spreiding is nog enorm.
(ai crawler list · ai crawlers user agents)
Zo gebruik je dit: plak deze tabel in een intern document of in je robots.txt-planningssheet. Doorzoek je logs op een van deze user-agent-strings om te achterhalen welke AI-bots je site nu al bezoeken.
| Leverancier | Crawlernaam | Volledige user-agent-string | Primair doel |
|---|---|---|---|
| OpenAI | GPTBot | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot |
ChatGPT-kernmodellen trainen en verversen |
| OpenAI | OAI-SearchBot | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot |
Realtime webzoekopdrachten voor ChatGPT Browse |
| OpenAI | ChatGPT-User 1.0 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot |
Haalt pagina's op wanneer gebruikers links in chats posten |
| OpenAI | ChatGPT-User 2.0 | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/2.0; +https://openai.com/bot |
Bijgewerkte crawler voor ophalen op aanvraag |
| Anthropic | anthropic-ai | Mozilla/5.0 (compatible; anthropic-ai/1.0; +http://www.anthropic.com/bot.html) |
Kerntrainingsdata voor Claude |
| Anthropic | ClaudeBot | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ClaudeBot/1.0; +claudebot@anthropic.com |
Crawler voor live citatie-ophaling (groeit het snelst) |
| Anthropic | claude-web | Mozilla/5.0 (compatible; claude-web/1.0; +http://www.anthropic.com/bot.html) |
Opname van recente webcontent |
| Perplexity | PerplexityBot | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot) |
Index voor Perplexity AI-zoekmachine |
| Perplexity | Perplexity-User | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://www.perplexity.ai/useragent) |
Laadt pagina's wanneer gebruikers op antwoorden klikken |
| Google-Extended | Mozilla/5.0 (compatible; Google-Extended/1.0; +http://www.google.com/bot.html) |
Voedt Gemini AI; los van Search | |
| GoogleOther | GoogleOther |
Interne R&D-crawler | |
| Microsoft | BingBot (Copilot) | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36 |
Drijft Bing Search en Copilot AI aan |
| Amazon | Amazonbot | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) |
Alexa Q&A en productaanbevelingen |
| Apple | Applebot | Mozilla/5.0 (compatible; Applebot/1.0; +http://www.apple.com/bot.html) |
Siri / Spotlight Search |
| Apple | Applebot-Extended | Mozilla/5.0 (compatible; Applebot-Extended/1.0; +http://www.apple.com/bot.html) |
Apple AI-modeltraining (standaard uit) |
| Meta | FacebookBot | Mozilla/5.0 (compatible; FacebookBot/1.0; +http://www.facebook.com/bot.html) |
Linkvoorbeelden in Meta-apps |
| Meta | meta-externalagent | Mozilla/5.0 (compatible; meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)) |
Reservecrawler van Meta |
| LinkedInBot | LinkedInBot/1.0 (compatible; Mozilla/5.0; Jakarta Commons-HttpClient/3.1 +http://www.linkedin.com) |
Previews van professionele content | |
| ByteDance | ByteSpider | Mozilla/5.0 (compatible; Bytespider/1.0; +http://www.bytedance.com/bot.html) |
Aanbevelings-AI voor TikTok / Toutiao |
| DuckDuckGo | DuckAssistBot | Mozilla/5.0 (compatible; DuckAssistBot/1.0; +http://www.duckduckgo.com/bot.html) |
Private AI-antwoordmachine |
| Cohere | cohere-ai | Mozilla/5.0 (compatible; cohere-ai/1.0; +http://www.cohere.ai/bot.html) |
Training van enterprise language models |
| Mistral | MistralAI-User | Mozilla/5.0 (compatible; MistralAI-User/1.0; +https://mistral.ai/bot) |
Europese LLM-crawler |
| Allen Institute | AI2Bot | Mozilla/5.0 (compatible; AI2Bot/1.0; +http://www.allenai.org/crawler) |
Scraping voor academisch onderzoek |
| Common Crawl | CCBot | Mozilla/5.0 (compatible; CCBot/1.0; +http://www.commoncrawl.org/bot.html) |
Open corpus dat door veel AI's wordt gebruikt |
| Diffbot | Diffbot | Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; +http://www.diffbot.com) |
Extractie van structured data |
| Omgili | omgili | Mozilla/5.0 (compatible; omgili/1.0; +http://www.omgili.com/bot.html) |
Scraping van forums en discussies |
| Timpi | TimpiBot | Timpibot/0.8 (+http://www.timpi.io) |
Gedecentraliseerde zoekmachine |
| You.com | YouBot | Mozilla/5.0 (compatible; YouBot (+http://www.you.com)) |
You.com AI-zoekmachine |
| DeepSeek | DeepSeekBot | Mozilla/5.0 (compatible; DeepSeekBot/1.0; +http://www.deepseek.com/bot.html) |
Chinese AI-onderzoekscrawler |
| xAI | GrokBot | User-agent TBD (launching 2025) | Aankomende crawler voor Musks Grok |
| Apple (Vision) | Applebot-Image | Mozilla/5.0 (compatible; Applebot-Image/1.0; +http://www.apple.com/bot.html) |
AI-opname met focus op afbeeldingen |
Tip: plak deze strings in een loganalysefilter of
grep-commando om AI-crawlers te identificeren die je site al bezoeken, en pas daarna je robots.txt en contentstrategie aan.
Je serverlogs weten nu al welke AI-crawlers je gisteren hebben bezocht — je moet alleen de ruis eruit filteren. Pak een ruwe access log en haal die door grep (of een andere logviewer) met deze regex-patronen. Elk patroon matcht de officiële user-agent-string, zodat je exacte tijdstempels, opgehaalde URL's en statuscodes ziet.
# GPTBot (OpenAI)
grep -E "GPTBot/([0-9.]+)" access.log
# ClaudeBot (Anthropic)
grep -E "ClaudeBot/([0-9.]+)" access.log
# PerplexityBot
grep -E "PerplexityBot/([0-9.]+)" access.log
# Google-Extended (Gemini)
grep -E "Google-Extended/([0-9.]+)" access.log
Voorbeeldhit (ingekort):
66.102.12.34 - - [18/Jul/2025:06:14:22 +0000] "GET /blog/ai-crawlers-guide HTTP/1.1" 200 8429 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot"
Als je Nginx of Apache gebruikt met combined-logging ingeschakeld, toont het vierde veld het IP en het negende de statuscode — handig om 4xx-blokkades te spotten. Stuur het daarna door naar cut of awk om een dagelijks rapport van crawlfrequentie op te bouwen.
Tip: Elke piek in 4xx-responses naar een AI-bot is een gemiste brandingkans. Los robots-regels of cachingfouten op voordat de crawler je domein lager zet in zijn freshness-queue.
Deze tabel is gebaseerd op wat we hebben gezien in loganalyse over sites van SEOJuice-klanten. Ik wil eerlijk zijn dat de kolommen "content priority" en "media appetite" onze beste interpretatie zijn van gedragspatronen, niet officiële documentatie van deze bedrijven. Geen van hen publiceert echt gedetailleerde specs over wat hun crawlers precies prefereren.
| Crawler | Contentprioriteit | JS-rendering | Voorkeur voor recente content | Voorkeur voor media |
|---|---|---|---|---|
| GPTBot (OpenAI) | Tekst > code snippets > metadata | ❌ (alleen HTML) | Bezoekt bijgewerkte pagina's vaak opnieuw | Laag (afbeeldingen worden 40% van de tijd overgeslagen) |
| ClaudeBot (Anthropic) | Contextrijke tekst & afbeeldingen | ❌ | Geeft voorkeur aan nieuwe artikelen (< 30 dagen) | Hoog (35% van de requests zijn afbeeldingen) |
| PerplexityBot | Feitelijke alinea's, duidelijke koppen | ❌ | Gemiddeld; realtime voor nieuws | Gemiddeld; zoekt naar diagrammen |
| Google-Extended | Goed gestructureerde HTML, schema | ✅ (rendert JS) | Volgt Googles crawlritme | Gemiddeld |
| BingBot (Copilot) | Long-form tekst & sitemap-signalen | ✅ | Hoog voor sites die vaak updaten | Gemiddeld |
| CCBot (CommonCrawl) | Bulktekst voor open corpora | ❌ | Laag; kwartaalrondes | Laag |
Vertaal die matrix naar strategie:
Tekstzware bots (GPTBot, Perplexity) belonen glasheldere koppen, FAQ-blokken en korte samenvattingen bovenaan artikelen.
Afbeeldingshongerige bots (ClaudeBot) parsen alt-tekst agressief — comprimeer afbeeldingen en schrijf beschrijvende tags, anders verlies je context.
JS-capabele bots (Google-Extended, BingBot) geven nog steeds de voorkeur aan SSR-snelheid; zware client-side rendering vertraagt iedereen daarbuiten.
Crawlers met een sterke focus op actualiteit bezoeken bijgewerkte pagina's snel opnieuw — voeg "Last updated"-datums en incrementele contentupdates toe om in hun loop te blijven.
Verzamel bewijs uit logs, stem af op de voorkeuren van de crawler en je verandert anoniem AI-botverkeer in merkvermeldingen die opduiken op de plekken waar de volgende miljard vragen worden beantwoord.
Hier moet ik echt eerlijk zijn: we weten het juiste antwoord nog niet, en ik ben nogal sceptisch over iedereen die beweert van wel.
De discussie in de SEO-community is fel. Sommige site-eigenaren blokkeren GPTBot volledig via robots.txt, omdat OpenAI volgens hen op hun content traint zonder compensatie of attributie. Dat is een legitiem standpunt, en grote uitgevers zoals de New York Times hebben dat ook gedaan. Anderen laten GPTBot juist vrij toe, in de hoop een trainingsbron te worden die in ChatGPT-antwoorden wordt geciteerd — de theorie is dat vroege opname in de kennis van het model een zichtbaarheidseffect oplevert dat zich opstapelt.
Dit is wat we in het klantenbestand van SEOJuice hebben gezien, en wat we nog niet hebben kunnen uitzoeken:
Wat we hebben bevestigd: Sites die GPTBot blokkeren, zien geen enkel effect op hun traditionele Google-rankings. Het blokkeren ervan schaadt je SEO niet. Google-Extended is een aparte crawler van Googlebot, en het blokkeren van de ene heeft geen effect op de andere. Dat is goed gedocumenteerd door Google zelf.
Wat we denken te zien maar niet kunnen bewijzen: Sites die GPTBot toestaan en goed gestructureerde content hebben, lijken vaker terug te komen in ChatGPT-antwoorden wanneer gebruikers gerelateerde vragen stellen. Maar we meten dat via handmatige spot-checks en onze AISO-monitoringtool, niet via een officiële API. Die correlatie kan dus toeval zijn. Onze steekproef voor deze specifieke observatie is ongeveer 40 sites, en dat is niet genoeg om daar heel zeker over te zijn.
Wat we oprecht niet weten: Of GPTBot nu blokkeren en later weer toelaten een blijvend effect heeft op hoe het model je domein behandelt. Of GPTBot robots.txt consequent respecteert — we hebben logbewijs dat daarop wijst, maar er zijn ook geloofwaardige meldingen van edge cases waarin geblokkeerde resources toch worden opgehaald. En of in de trainingsdata zitten daadwerkelijk leidt tot meer citaties, versus alleen aanwezig zijn in de realtime zoeklaag.
Onze huidige aanbeveling — en ik wil benadrukken dat dit een gok is, geen zekerheid — is om GPTBot toe te laten op je publieke content en te blokkeren op gated of proprietary materiaal. De redenering: als AI-zoekmachines een groot distributiekanaal worden, wil je in de trainingsdata zitten. Als dat niet gebeurt, heb je weinig verloren. Het asymmetrische risico spreekt in het voordeel van openheid. Maar vraag het me over zes maanden nog eens en ik geef je misschien een ander antwoord.
Ontwerpen voor AI-zichtbaarheid begint in de markup en eindigt op de server. Doe je een van die lagen verkeerd, dan scannen GPTBot, ClaudeBot of Google-Extended je pagina vluchtig, struikelen ze ergens en gaan ze weer door.
Koppenhiërarchie (H-tags)
Zie H1-H3 als een inhoudsopgave voor language models. Eén H1 die het onderwerp benoemt, gevolgd door H2-secties die elk een aparte subvraag beantwoorden, en optionele H3's voor ondersteunend detail. Sla je niveaus over of prop je meerdere H1's op één pagina, dan raakt de crawler de draad kwijt.
<h1>AI Crawler Directory 2025</h1> <h2>What Is an AI Crawler?</h2> <h2>Complete List of AI User-Agents</h2> <h3>OpenAI GPTBot</h3> <h3>Anthropic ClaudeBot</h3> <h2>How to Optimise Your Site</h2>
Lead-samenvattingen
Open elk artikel met twee tot drie zinnen die het antwoord meteen geven. AI-modellen knippen voor citaties vaak alleen de eerste 300-500 tekens uit; begraaf je de kern te diep, dan citeren ze iemand anders die dat niet deed.
Schema & FAQ-blokken
Verpak definities, how-to's en productspecificaties in FAQPage, HowTo of Product schema. Structured data werkt als een neonbord in een verder donkere crawl. Voor FAQ geldt: zet de Q&A inline op de pagina, zodat crawlers maar één request nodig hebben om de context mee te nemen. Dit is precies het soort probleem dat SEOJuice oplost — het genereert en injecteert automatisch schema op je pagina's zonder dat je code hoeft aan te raken.
<script type="application/ld+json"> { "@context": "https://schema.org", "@type": "FAQPage", "mainEntity": [{ "@type": "Question", "name": "What is GPTBot?", "acceptedAnswer": { "@type": "Answer", "text": "GPTBot is OpenAI's primary web crawler used to train ChatGPT." } }] } </script>
Waarom lijstjes en definitiepagina's winnen
Lijstjes bieden scanbare structuur: genummerde H2's, korte toelichtingen, voorspelbare patroonherkenning. Definitiepagina's beantwoorden "Wat is X?" in de eerste alinea — precies wat chatassistenten nodig hebben voor compacte antwoorden. Beide formats sluiten netjes aan op de vraag-antwoordparen die LLMs samenstellen.
Server-side rendering (SSR)
De meeste AI-bots kunnen geen client-side JavaScript uitvoeren — of willen dat simpelweg niet. Pre-render kritieke content op de server en lever complete HTML uit. Frameworks zoals Next.js of Nuxt met SSR ingeschakeld lossen dit op zonder dat je je hele stack hoeft te herbouwen.
Wel een kanttekening: we hebben gemerkt dat Google-Extended wel JavaScript lijkt te renderen, afgaande op de pagina's die het succesvol indexeert op JS-zware sites in ons klantenbestand. Maar over de rest zijn we niet zeker. Onze werkhypothese is simpel: als je maximale dekking van AI-crawlers wilt, serveer dan HTML. Vertrouw niet op client-side rendering en hoop niet op een wonder (dat is zelden een strategie, helaas).
Alt-tekstconventies
ClaudeBot vraagt 35% van de tijd afbeeldingen op. Beschrijvende alt-tekst ("GPTBot crawling diagram showing request paths") geeft beeldcontext en werkt meteen als extra keyword-signaal. Sla je dit over, dan is je visual onzichtbaar voor precies de crawler die de pagina probeert te begrijpen.
Schone URL's
/ai-crawler-list wint van /blog?id=12345&ref=xyz. Korte slugs met koppeltekens geven onderwerpduidelijkheid en verminderen crawlfrictie.
Gecomprimeerde assets
Grote afbeeldingen en niet-geminificeerde scripts vertragen Time to First Byte (TTFB). AI-bots respecteren snelheid: als je server bytes druppelsgewijs uitspuugt, verlagen ze hun crawlfrequentie. Zet Brotli/Gzip aan, gebruik WebP/AVIF voor afbeeldingen en lazy-load media onder de vouw.
Performance-baseline om te halen
| Metric | Doel |
|---|---|
| LCP | < 2.5 s |
| INP | < 200 ms |
| CLS | < 0.1 |
Haal je die cijfers, dan consumeren zowel menselijke gebruikers als AI-crawlers je content zonder frictie.
AI-crawlers zijn allang geen experimenteel zijverkeer meer — het zijn de nieuwe toevoerleidingen naar elk chatvenster, elke spraakassistent en elk AI-zoekpaneel dat je klanten raadplegen. GPTBot, ClaudeBot, PerplexityBot en Google-Extended bezoeken dagelijks miljoenen pagina's en oogsten tekst, schema en afbeeldingen om te bepalen welke merken namens de categorie spreken.
De upside is simpel: een handvol technische tweaks — server-side rendering, schone koppen, AI-vriendelijk schema — en jouw expertise wordt de quote die die assistenten duizenden keren per dag herhalen. Doe je dit nu, terwijl slechts zes procent van de sites heeft geoptimaliseerd, dan pak je first-mover authority die lastig te verdringen is zodra modellen je eenmaal in hun trainingssets hebben ingebakken.
Dat gezegd hebbende wil ik de urgentie wel temperen met een dosis realisme. We begrijpen nog niet volledig hoe deze modellen verschillende bronnen wegen, en het landschap verschuift elk kwartaal doordat nieuwe crawlers verschijnen en oude hun gedrag aanpassen. Wat ik je wel met vertrouwen kan zeggen: de basishygiëne — schone HTML, snelle servers, beschrijvende koppen, open robots.txt — helpt je ongeacht welke kant AI-zoekmachines op bewegen. In het slechtste geval verbeter je óók gewoon je traditionele SEO.
Controleer deze week je logs. Laat de juiste bots toe, verbeter de contentsignalen waar ze gevoelig voor zijn en volg in het komende kwartaal hoe vaak je merk in AI-antwoorden opduikt.
Gerelateerde artikelen:
no credit card required
No related articles found.