seojuice

Wat is Googlebot? Hoe het uw site crawlt, rendert en indexeert

Vadim Kravcenko
Vadim Kravcenko
· Updated · 14 min read

TL;DR. Googlebot is de verzamelnaam voor de crawlers die Google gebruikt om web­content te ontdekken, te renderen en te indexeren. Het is geen enkele bot, maar een hele familie. Het belangrijkste lid is Googlebot Smartphone; die crawlt standaard de mobiele versie van je site met een headless Chromium dat meeloopt met de meest recente stabiele Chrome-release. Crawlen, renderen en indexeren zijn drie aparte fasen die uren of zelfs dagen uit elkaar kunnen liggen. De meeste “Googlebot ziet mijn pagina niet”-problemen ontstaan doordat JavaScript in de renderfase stilletjes faalt, niet in de crawl­fase. De rest van deze handleiding behandelt de botfamilie, de drie­fasen­pipeline, hoe je controleert of een verzoek echt van Googlebot komt, de robots.txt- en crawl­budget­kwesties die iedereen stelt en hoe Googlebot zich nu verhoudt tot Bingbot, GPTBot, PerplexityBot en ClaudeBot.

Wat Googlebot eigenlijk is (in gewone taal)

Googlebot is het programma waarmee Google webpagina’s ophaalt zodat ze kunnen worden toegevoegd aan de Google-index. Wanneer je een nieuwe blogpost publiceert en die uiteindelijk in de zoekresultaten verschijnt, begint die reis met Googlebot die de URL opvraagt, de HTML downloadt, de JavaScript uitvoert en het resultaat doorgeeft aan Google’s indexerings­systeem. Zonder Googlebot bestaan je pagina’s niet voor Google-zoekopdrachten.

Twee belangrijke kanttekeningen vooraf. Ten eerste wordt “Googlebot” soms losjes gebruikt voor “elke Google-crawler”. Strikt genomen is Googlebot de crawler die pagina’s ophaalt voor de hoofd­index van Google Search. Er bestaan andere Google-crawlers (AdsBot voor landings­pagina-checks, Storebot voor Shopping-lijsten, Google-Extended voor AI-opt-outs), maar dat zijn andere bots met andere doelen en ander rulebook. Wees dus specifiek welk exemplaar je bedoelt als je debugt.

Ten tweede: Googlebot is geen scraper. Een scraper pakt zonder toestemming alles wat hij kan en doet er daarna mee wat hij wil. Googlebot leest vóór elke crawl je robots.txt, respecteert noindex-meta-tags, vertraagt zichzelf als je server traag wordt en identificeert zich in de request-headers zodat je kunt verifiëren dat het verzoek echt van Google komt. Zie je in je logs een “Googlebot” die je origin blijft bestoken zonder af te remmen, dan is het vrijwel zeker geen echte Googlebot maar iemand die de user-agent spooft.

Googlebot is eigenlijk een familie van crawlers

De bot waar je het meest rekening mee moet houden is Googlebot Smartphone, die sinds de afronding van mobile-first indexing in mid-2023 standaard de mobiele versie van je site crawlt. Desktop-crawls gebeuren nog wel, maar zijn nu secundair. Dit is de stamboom met de exacte user-agent-strings die Google publiceert:

Crawler User-agent-string (fragment) Functie
Googlebot SmartphoneMozilla/5.0 (Linux; Android 6.0.1; Nexus 5X...) ... Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)Primaire crawler voor de mobiele versie van je site; bepaalt het grootste deel van de indexering.
Googlebot DesktopMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36Crawlt desktop­varianten; kleiner aandeel in het crawl­volume sinds mobile-first.
Googlebot ImageGooglebot-Image/1.0Haalt afbeeldingen op voor Google Images.
Googlebot VideoGooglebot-Video/1.0Haalt videobestanden op voor Google Videos.
Googlebot NewsGeen aparte UA — gebruikt diverse Googlebot-stringsCrawlt voor Google News; identificatie vereist IP-check, niet UA.
Google-InspectionToolMozilla/5.0 (compatible; Google-InspectionTool/1.0;)Wordt getriggerd wanneer je de URL Inspection-tool in Search Console gebruikt; omzeilt sommige caching.

De placeholder W.X.Y.Z in de Smartphone- en Desktop-user-agents is niet letterlijk. Google vult bij het verzoek het actuele Chromium-versienummer in, en dat volgt de recente stabiele Chrome. Op het moment van schrijven ligt de rendering-engine van Googlebot dus hooguit een paar weken achter op de publiek uitgebrachte Chrome. Heeft je site een JavaScript-feature nodig die pas vanaf Chrome 130 werkt, dan ondersteunt Googlebot die waarschijnlijk. Vereist het iets dat nog niet is uitgebracht, dan niet. Dit is het punt dat veel “is mijn JS te modern voor Googlebot?”-discussies missen: de renderer van de bot is up-to-date, niet bevroren op Chrome 41 zoals jaren geleden.

De drie­fasen­pipeline: crawl, render, index

Het werk van Googlebot is opgesplitst in drie duidelijke fasen. Ze gebeuren niet gelijktijdig; een vertraging of fout in eender welke fase kan je pagina uit de zoekresultaten houden. Google’s eigen documentatie vat het simpel samen: “Google verwerkt JavaScript-webapps in drie hoofdfasen: 1. Crawlen 2. Renderen 3. Indexeren.” Het verschil tussen deze fasen begrijpen is wat SEO-specialisten die indexatie­problemen kunnen debuggen scheidt van mensen die gokken.

Fase 1: Crawlen

Googlebot pakt een URL uit zijn wachtrij, stuurt een HTTP-request en ontvangt de ruwe HTML-response. Daarmee is deze fase klaar. Er draait nog geen JavaScript; er wordt nog geen gerenderde content bekeken. De crawler leest de statuscode, de response-headers (waaronder caching-headers, X-Robots-Tag en eventuele redirects) en de ruwe HTML-body. URLs om te crawlen komen uit een wachtrij die Google samenstelt op basis van XML-sitemaps die je aanlevert, interne links van al geïndexeerde pagina’s, externe links vanaf andere sites en rechtstreekse aanmeldingen via de URL Inspection-tool in Search Console.

Bevat je ruwe HTML-response al alles wat geïndexeerd moet worden (het klassieke server-side-render-scenario), dan heeft Googlebot genoeg om door te gaan. Is de ruwe HTML grotendeels leeg en wordt de content later door JavaScript in de DOM gezet, dan gaat de pagina door naar de renderfase. Dit is ook de stap waarin Googlebot je robots.txt leest vóór iets wordt gecrawld. Staat een URL daar op disallow, dan haalt Googlebot hem niet eens op.

Fase 2: Renderen

Als een pagina JavaScript nodig heeft om haar inhoud te tonen, geeft Googlebot de URL aan de Web Rendering Service (WRS). De WRS is een headless Chromium dat de pagina in een browser-achtige omgeving laadt, de scripts uitvoert en de uiteindelijke gerenderde HTML oplevert. Google beschrijft het nuchter: “Zodra Google de resources heeft, rendert een headless Chromium de pagina en voert het de JavaScript uit.”

De frase “zodra Google de resources heeft” doet veel werk. Renderen is duur (een volledige browser draaien, willekeurige JS uitvoeren, wachten op netwerk­requests), dus Google batcht en queue-t dit. Pagina’s kunnen seconden, uren of in het slechtste geval dagen in de renderqueue staan. De officiële documentatie blijft bewust vaag: “De pagina kan enkele seconden in deze queue blijven, maar het kan langer duren.”

Deze rendervertraging is het grootste praktische probleem bij JavaScript-rendered sites. Je blogpost kan minuten na publicatie worden gecrawld maar pas 24 uur later worden gerenderd; je content verschijnt dus pas de volgende dag in de zoekresultaten, ook al heeft Google de URL technisch gezien al “gezien”. Puur server-side-gerenderde pagina’s slaan deze wachtrij volledig over.

Fase 3: Indexeren

Als Googlebot de uiteindelijke HTML heeft (direct uit de crawl of via de WRS na renderen), parseert het indexerings­systeem het document, extraheert tekst, classificeert de content, evalueert ranking-signalen en slaat alles op in de index van Google. Vanaf dit moment kan de pagina in de zoekresultaten verschijnen. Indexeren is ook niet instant en kan nog minuten tot uren duren na het renderen, maar Googlebot is dan klaar met deze URL; de rest ligt bij de ranking-algoritmen.

Waardoor JavaScript-rendering stukloopt (en hoe je het vangt)

De meeste “Googlebot ziet mijn content niet”-problemen zijn renderproblemen, geen crawl­problemen. De crawl­fase slaagt vrijwel altijd; de pagina rendert alleen niet zoals de ontwikkelaar verwachtte. De zes faal­patronen hieronder zie ik bij SEOJuice het vaakst, in ruwweg aflopende frequentie.

1. Content die pas na gebruikers­interactie laadt
Als klikken op een “Toon meer”-knop de enige manier is om een sectie zichtbaar te maken, ziet Googlebot die niet. De WRS voert JavaScript uit maar klikt geen knoppen en scrolt niet. Alles wat belangrijk is moet bij de initiële load in de DOM staan, zelfs al is het via CSS verborgen. Dit is het meest voorkomende renderprobleem en duikt vaak op in component­libraries die tabbladen, accordeons of “load more”-feeds lui monteren.
2. Lazy-loading zonder goede signalen
Lazy-loaded afbeeldingen en blokken hebben ofwel native loading="lazy" nodig of een Intersection Observer-setup die de WRS kan resolven. Custom libraries die wachten op scrollevents falen vaak, omdat WRS niet scrolt. Gebruik loading="lazy" voor afbeeldingen; voor componenten geldt: render server-side of gebruik een framework met degelijke SSR/hydration.
3. JavaScript-fouten tijdens uitvoering
Als een script bovenaan de pagina een ongecaught exception gooit, lopen onderliggende scripts mogelijk niet, waardoor de rest van de pagina leeg blijft. De WRS ziet dan alleen wat vóór de exception was gerenderd. Gebruik in de URL Inspection-tool “Geteste pagina bekijken” om precies te zien wat Googlebot zag, inclusief gerenderde HTML en screenshot.
4. WAF- en botprotectie-regels
CAPTCHA’s, Cloudflare Bot Fight Mode te agressief ingesteld en naïeve geo-blocking kunnen een 403 of een challenge-pagina aan Googlebot-IP’s serveren. Whitelist altijd de geverifieerde Google-IP-ranges (gepubliceerd als googlebot.json op developers.google.com) voordat je een “block bots”-feature aanzet. Verifieer wijzigingen met de URL Inspection-tool.
5. Resources geblokkeerd in robots.txt
Als je robots.txt /static/ of /assets/ blokkeert, kan de WRS de JS- en CSS-bundles daar niet ophalen en rendert je pagina zonder styles of met kapotte JavaScript. Sta Googlebot toe om statische assets te crawlen, ook al blokkeer je andere paden.
6. Content achter authenticatie of cookies
Googlebot logt niet in, accepteert niet zinvol cookies en houdt geen sessie bij. Alles achter een login­muur wordt niet geïndexeerd. Gebruik de indexing API of gestructureerde data voor paywalled content wanneer je zichtbaarheid nodig hebt, en wees expliciet over wat wordt afgeschermd.

Zo verifieer je dat een request echt van Googlebot is

De Googlebot-user-agent is eenvoudig te spoofen; iedereen kan een request sturen dat zegt van Googlebot te zijn. Echte Googlebot-requests komen uit gepubliceerde Google-IP-ranges en de enige betrouwbare manier om een hit te verifiëren is een reverse DNS-lookup gevolgd door een forward lookup. Google beschrijft de procedure; de praktische versie is kort:

  1. Neem het IP-adres uit je accesslog.
  2. Doe een reverse DNS-lookup. De hostname moet eindigen op .googlebot.com of .google.com.
  3. Doe een forward DNS-lookup op die hostname. Die moet terugresolven naar hetzelfde IP.
  4. Als beide checks slagen, is het echte Googlebot. Faalt er één, dan is het spoofing.

Op de commandline: host 66.249.66.1 gevolgd door host crawl-66-249-66-1.googlebot.com. Beheer je een site met veel verkeer, automatiseer dit in je logpipeline; je zult versteld staan hoe vaak een “Googlebot-crawlspike” een derde-partij-scraper met gespoofte user-agent blijkt.

robots.txt en crawl­budget: de tactische vragen die iedereen stelt

Hoeveel crawlt Googlebot op mijn site?

Dit noemt Google het crawl­budget. Voor sites tot zo’n 10.000 URLs is het zelden een beperking; Googlebot crawlt alles wat ertoe doet binnen redelijke tijd. Het wordt pas relevant op grote sites met miljoenen URLs, gefacetteerde e-commerce of wanneer Googlebot veel crawls verspilt op duplicaten of lage-kwaliteit-pagina’s. De twee factoren die Google noemt zijn crawl rate (hoe snel je server foutloos reageert) en crawl demand (hoe populair en hoe vaak gewijzigd een URL is).

Moet ik Googlebot blokkeren op lage-waarde URLs?

Ja, als die URLs op een grote site in je crawl­budget hakken. Standaard­patroon: blokkeer gefacetteerde zoek-URLs, interne zoekresultaten, paginatie > pagina 5, varianten met session-ID-query-parameters en admin-endpoints. Gebruik robots.txt om tijdens het crawlen te blokkeren en noindex-meta-tags om tijdens het indexeren te blokkeren; dat zijn verschillende dingen. Robots voorkomt de crawl volledig, noindex laat wel crawlen maar verhindert indexatie.

Hoe versnel ik de indexering van een nieuwe pagina?

Dien hem in via de URL Inspection-tool in Search Console. Dat triggert een out-of-band crawl (met Google-InspectionTool, niet Googlebot) en gaat sneller dan wachten op de reguliere queue. Link de nieuwe pagina ook vanaf een al geïndexeerde high-authority pagina, zodat de eerstvolgende gewone crawl hem via de linkgraf oppakt.

Waarom crawlt Googlebot mijn dev-omgeving?

Omdat ergens een URL van je staging- of dev-domein in het publieke web is gelekt (een toevallige link, zoekresultaat, open issue-tracker) en Googlebot de linkgraf volgt. Blokkeer het hele staging-domein in robots.txt met Disallow: / en zet basisauth aan als de content gevoelig is.

“Googlebot ziet deze pagina niet” debuggen

Een systematische debug doorloopt vier checks, op volgorde, totdat één een duidelijk antwoord geeft.

Check 1, URL Inspection in Search Console. Plak de URL. De tool laat zien of Google hem heeft gecrawld en geïndexeerd, wanneer dat gebeurde en toont “Geteste pagina bekijken” met de gerenderde HTML en screenshot. Ontbreekt je content in de gerenderde HTML, dan zit het probleem in de renderfase. Geeft de pagina een niet-200-status, dan zit het in de crawl­fase. Deze ene check lost zo’n 70 % van de indexatie­onderzoeken op.

Check 2, curl met Googlebot-user-agent. Run curl -A "Mozilla/5.0 ... Googlebot/2.1 ..." https://jouwsite.com/pad. Als je server andere content levert aan Googlebot dan aan een gewone browser, zie je dat hier. Cloaking (expres of per ongeluk) is een veelvoorkomende oorzaak van mysterieuze indexatie­problemen.

Check 3, robots.txt- en meta-tag-audit. Bezoek https://jouwsite.com/robots.txt. Controleer of de URL niet is geblokkeerd. Bekijk dan de paginabron en zoek op noindex. Verba­zend vaak blijkt een niet-indexeerbare pagina een overgebleven noindex-tag uit staging te hebben.

Check 4, serverlog-analyse. Filter je accesslogs op geverifieerde-Googlebot-requests van de laatste 30 dagen. Verschijnt de URL nooit, dan is het een discoverability-probleem: Googlebot kent de URL niet. Voeg hem toe aan je sitemap en link ernaar vanaf geïndexeerde pagina’s. Verschijnt de URL wel maar geeft die altijd een 4xx of 5xx, los dan eerst de fout op. SEOJuice draait deze verified-Googlebot-loganalyse voor elke aangesloten site en alarmeert je zodra een belangrijke URL verdwijnt uit echt Googlebot-verkeer — meestal vang je zo indexatie­fouten voordat ze rankings kosten.

Googlebot vs Bingbot vs de AI-crawlers

Vroeger dacht men vooral aan Googlebot; dat is veranderd. Zo verhouden de belangrijkste crawlers zich anno 2026:

Crawler Operator Rendert JS? Gebruik
GooglebotGoogleJa (recente Chromium)Google-zoekindex
BingbotMicrosoftJa (Edge / Chromium)Bing-zoekindex, Copilot-grounding
GPTBotOpenAIBeperkt / geen SPA-supportChatGPT-training
OAI-SearchBotOpenAIBeperktChatGPT-search retrieval
PerplexityBotPerplexityBeperktPerplexity answer-engine
ClaudeBotAnthropicBeperktClaude-training en retrieval
Google-ExtendedGoogleN.v.t. (alleen signaal)Opt-out flag voor Gemini-training

Twee praktische consequenties. Eén: AI-crawlers hebben meestal zwakkere JavaScript-rendering dan Googlebot. Als je content alleen client-side wordt gerenderd, kun je prima ranken in Google Search maar compleet onzichtbaar zijn voor ChatGPT, Perplexity en Claude — zij zien een lege pagina. De oplossing is dezelfde die Googlebot nodig heeft: server-side render of prerender de belangrijke content. Onze gratis AI-visibility checker laat binnen een minuut zien of de grote AI-engines je content daadwerkelijk kunnen zien. Twee: elke AI-crawler heeft eigen robots.txt-directives. User-agent: GPTBot blokkeert OpenAI’s training-crawler. User-agent: Google-Extended blokkeert Gemini-training. User-agent: Googlebot blijft de gewone search-crawler sturen, los van de AI-bots. Wil je wel in Google Search maar niet in AI-training, stel die regels apart in.

Veelgestelde vragen

Wat is Googlebot?

Googlebot is de webcrawler waarmee Google webpagina’s ontdekt en downloadt zodat ze kunnen worden geïndexeerd en in zoekresultaten verschijnen. Het is feitelijk een familie (Smartphone, Desktop, Image, Video, News) met verschillende user-agent-strings en doelen, maar meestal bedoelt men Googlebot Smartphone, sinds 2023 de primaire crawler na de afronding van mobile-first indexing.

Voert Googlebot JavaScript uit?

Ja. De Web Rendering Service (WRS) is een headless Chromium die JavaScript uitvoert op pagina’s die dat nodig hebben. De Chromium-versie volgt recente stabiele Chrome-releases, dus moderne JS-features werken doorgaans. Het addertje is de renderqueue: ook als JS-rendering slaagt, kan die pas seconden, uren of soms dagen na de initiële crawl plaatsvinden. Server-side gerenderde pagina’s slaan deze wachtrij over.

Hoe check ik of een request echt van Googlebot komt?

Doe een reverse DNS-lookup op het IP-adres. Echte Googlebot-hits resolven naar hostnames die eindigen op .googlebot.com of .google.com. Doe daarna een forward DNS-lookup op die hostname; hij moet terugresolven naar hetzelfde IP. Mislukt één stap, dan is het een gespoofte user-agent. De user-agent-header zelf is geen bewijs; iedereen kan elke string meesturen.

Kan ik Googlebot blokkeren?

Ja. Voeg User-agent: Googlebot gevolgd door Disallow: / toe aan je robots.txt. Dit blokkeert crawlen, dus de pagina wordt niet geïndexeerd en verschijnt niet in Google Search. Voor fijnmazigere controle gebruik je noindex-meta-tags op individuele pagina’s (die laten wel crawlen maar blokkeren indexatie) of blokkeer je specifieke paden in robots.txt. Blokkeer Googlebot nooit voor je CSS- en JS-bundles; die heeft de renderer nodig.

Is Googlebot hetzelfde als GPTBot of PerplexityBot?

Nee. Het zijn aparte crawlers van andere bedrijven met andere doelen. Googlebot indexeert het web voor Google Search. GPTBot verzamelt trainingsdata voor ChatGPT. PerplexityBot haalt content voor Perplexity’s answer-engine. Elke bot heeft zijn eigen user-agent-string en volgt (of negeert) eigen robots.txt-regels. Je kunt Googlebot toestaan en GPTBot blokkeren, of elke andere combinatie, door aparte regels te zetten.

Waarom heeft Googlebot mijn nieuwe pagina nog niet geïndexeerd?

De meest voorkomende oorzaken, op volgorde: de pagina is niet gelinkt vanaf een geïndexeerde URL (Googlebot weet niet dat ze bestaat), ze retourneert geen 200-status, ze bevat een noindex-tag, ze is geblokkeerd door robots.txt of de content hangt af van client-side JavaScript dat de rendering-service nog niet heeft verwerkt. Gebruik de URL Inspection-tool in Search Console om te zien wat er gebeurt; “Geteste pagina bekijken” toont exact wat Googlebot zag. Nieuwe pagina’s worden meestal binnen enkele uren tot dagen geïndexeerd, langer als je site een lage crawl­frequentie heeft.

Kan Googlebot content in iframes lezen?

Ja, maar het wordt los gezien van de ouderpagina. Content in een iframe wordt gekoppeld aan de bron-URL van het iframe, niet aan de embed­dende pagina. Zet dus geen hoofdcontent in een iframe — je verdeelt dan het indexerings­signaal over twee URLs en verzwakt beide.

De bottom line over Googlebot

Onthoud vooral drie dingen over Googlebot. Eén: het is een familie van crawlers en Googlebot Smartphone is veruit het belangrijkst sinds mobile-first indexing standaard is. Twee: de pipeline bestaat uit drie fasen (crawl, render, index) en de meeste indexatie­problemen zitten in de renderfase, niet in de crawl­fase. Daarom is “Geteste pagina bekijken” in de URL Inspection-tool de nuttigste debug­surface die Google heeft uitgebracht. Drie: AI-crawlers (GPTBot, PerplexityBot, ClaudeBot) renderen JavaScript zwakker dan Googlebot; optimaliseren voor de renderer van Googlebot maakt je content ook zichtbaar voor AI-search, maar omgekeerd niet altijd. De oplossing voor “AI-engines citeren me niet” is vaak dezelfde als voor “Googlebot ziet mijn content niet”: render server-side, houd kritieke content in de initiële HTML en verstop die niet achter JavaScript dat geruisloos faalt.

Gerelateerd: SEO voor Single Page ApplicationsAnswer Engine Optimization (AEO)Gratis SEO-audittoolGratis AI-visibility checker

SEOJuice
Stay visible everywhere
Get discovered across Google and AI platforms with research-based optimizations.
Works with any CMS
Automated Internal Links
On-Page SEO Optimizations
Get Started Free

no credit card required

More articles

No related articles found.