Was ist Googlebot? So crawlt, rendert und indexiert er Ihre Website

TL;DR. Googlebot ist der Sammelbegriff für die Crawler, mit denen Google Webseiten entdeckt, rendert und indexiert. Es handelt sich nicht um einen einzelnen Bot, sondern um eine ganze Familie. Das wichtigste Mitglied ist Googlebot Smartphone, der die mobile Version deiner Seite mit einem Headless-Chromium durchsucht, das stets der aktuellen stabilen Chrome-Version entspricht. Crawling, Rendering und Indexierung sind drei getrennte Phasen, die Stunden oder Tage auseinanderliegen können. Die meisten „Googlebot-sieht-meine-Seite-nicht“-Probleme stammen von JavaScript, das in der Rendering-Phase lautlos fehlschlägt – nicht vom Crawling. Der Rest dieses Guides erklärt die Bot-Familie, die Drei-Phasen-Pipeline, wie man echte Googlebot-Anfragen verifiziert, beantwortet die üblichen Fragen zu robots.txt und Crawl-Budget und vergleicht Googlebot mit Bingbot, GPTBot, PerplexityBot und ClaudeBot.

Was Googlebot eigentlich ist (einfach erklärt)

Googlebot ist das Programm, mit dem Google Webseiten abruft, damit sie in den Google-Index gelangen. Wenn du einen neuen Blogpost veröffentlichst und er irgendwann in den Suchergebnissen auftaucht, beginnt diese Reise damit, dass Googlebot die URL anfordert, das HTML herunterlädt, das JavaScript ausführt und das Ergebnis an das Indexierungssystem von Google übergibt. Ohne Googlebot existieren deine Seiten für die Google-Suche schlicht nicht.

Zwei Klarstellungen vorab. Erstens wird „Googlebot“ manchmal locker als Synonym für „jeder Google-Crawler“ verwendet. Streng genommen ist Googlebot aber der Crawler, der Seiten für den Hauptindex der Google-Suche abruft. Es gibt weitere Google-Crawler (AdsBot für Landing-Page-Qualität, Storebot für Shopping-Listings, Google-Extended für KI-Opt-outs), aber das sind andere Bots mit eigenen Zwecken und abweichendem Regelwerk. Sei beim Debuggen präzise, welchen Bot du meinst.

Zweitens ist Googlebot kein Scraper. Ein Scraper holt sich ohne Erlaubnis alles von deiner Seite und nutzt die Daten nach Belieben. Googlebot liest vor jedem Crawl deine robots.txt, respektiert noindex-Meta-Tags, drosselt sich, wenn dein Server langsamer wird, und identifiziert sich im Request-Header, damit du die Anfrage als echt verifizieren kannst. Wenn du in den Logs einen „Googlebot“-Hit siehst, der deinen Origin ohne Pause bombardiert, ist das fast sicher kein echter Googlebot, sondern jemand, der den User-Agent fälscht.

Googlebot ist in Wirklichkeit eine Familie von Crawlern

Der Bot, über den du am häufigsten nachdenken musst, ist Googlebot Smartphone. Seit Google 2023 das Mobile-First-Indexing abgeschlossen hat, crawlt er standardmäßig die mobile Version deiner Seite. Desktop-Crawls gibt es noch, aber sie sind jetzt zweitrangig. Hier der Stammbaum mit den exakten User-Agent-Strings, die Google veröffentlicht:

Crawler	User-Agent-String (Auszug)	Aufgabe
Googlebot Smartphone	Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X...) ... Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)	Hauptcrawler für die mobile Version deiner Seite. Verantwortlich für den Großteil der Indexierung.
Googlebot Desktop	Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36	Crawlt Desktop-Varianten. Seit Mobile-First nur noch geringer Anteil am Crawl-Traffic.
Googlebot Image	Googlebot-Image/1.0	Ruft Bilder für Google Bilder ab. Eigener Bot, eigene Regeln.
Googlebot Video	Googlebot-Video/1.0	Ruft Videodateien für Google Videos ab.
Googlebot News	Kein eigener UA — nutzt diverse Googlebot-Strings	Crawlt Inhalte für Google News. Identifikation nur über IP möglich, nicht über UA.
Google-InspectionTool	Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)	Wird ausgelöst, wenn du das URL-Prüftool in der Search Console nutzt. Umgeht teilweise Caches.

Der Platzhalter W.X.Y.Z in den Smartphone- und Desktop-User-Agents ist nicht wörtlich zu verstehen. Google setzt zur Anfragezeit die tatsächliche Chromium-Version ein, die sich fortlaufend an der aktuellen stabilen Chrome-Version orientiert. Stand heute liegt das Rendering-Engine-Level von Googlebot nur wenige Wochen hinter dem öffentlichen Chrome-Release. Nutzt deine Seite also ein JavaScript-Feature, das Chrome 130+ erfordert, wird Googlebot es wahrscheinlich unterstützen. Benötigt es etwas, das noch nicht ausgeliefert wurde, unterstützt Googlebot es nicht. Genau das übersehen viele Diskussionen um „Ist mein JS zu modern für Googlebot?“. Der Renderer ist aktuell, nicht auf Chrome 41 eingefroren wie früher.

Die Drei-Phasen-Pipeline: Crawl, Render, Index

Die Arbeit von Googlebot gliedert sich in drei separate Phasen. Sie laufen nicht gleichzeitig ab, und Verzögerungen oder Fehler in einer Phase können deine Seite aus den Suchergebnissen heraushalten. Googles eigene Doku fasst es knapp zusammen: „Google verarbeitet JavaScript-Web-Apps in drei Hauptphasen: 1. Crawling 2. Rendering 3. Indexierung.“ Wer diese Grenzen versteht, kann Indexierungsprobleme gezielt debuggen – alle anderen raten.

Phase 1: Crawling

Googlebot wählt eine URL aus seiner Warteschlange, sendet einen HTTP-Request und erhält die rohe HTML-Antwort. Mehr passiert hier nicht. Es wird noch kein JavaScript ausgeführt, kein gerendertes DOM begutachtet. Der Crawler liest den Statuscode, die Response-Header (inklusive Caching-Headern, X-Robots-Tag und Redirects) sowie den HTML-Body. URLs gelangen in die Warteschlange über XML-Sitemaps, interne Links bereits indexierter Seiten, externe Links anderer Sites und direkte Einreichungen via URL-Prüftool.

Wenn die rohe HTML-Antwort bereits alle indexrelevanten Inhalte enthält (klassisches serverseitiges Rendering), hat Googlebot genug für den nächsten Schritt. Fehlt der Großteil des Inhalts und wird erst per JavaScript injiziert, geht die Seite als Nächstes in die Rendering-Phase. Vor jedem Crawl liest Googlebot außerdem die robots.txt. Ist eine URL dort gesperrt, wird sie nicht einmal abgerufen.

Phase 2: Rendering

Benötigt eine Seite JavaScript, um Inhalte anzuzeigen, übergibt Googlebot die URL an den Web Rendering Service (WRS). Dieser Headless-Chromium lädt die Seite in einer Browser-Umgebung, führt die Skripte aus und erzeugt das finale gerenderte HTML. Google beschreibt das nüchtern: „Sobald genügend Ressourcen zur Verfügung stehen, rendert ein Headless-Chromium die Seite und führt das JavaScript aus.“

Die Formulierung „sobald genügend Ressourcen zur Verfügung stehen“ trägt viel Bedeutung. Rendering ist teuer (vollständiger Browser, JS-Ausführung, Netzwerk-Requests), daher bündelt Google die Aufgabe und stellt sie in eine Warteschlange. Seiten können dort Sekunden, Stunden oder im schlimmsten Fall Tage verweilen. Die offizielle Aussage bleibt absichtlich vage: „Die Seite kann nur wenige Sekunden in dieser Warteschlange sein, es kann jedoch länger dauern.“

Diese Rendering-Verzögerung ist das größte praktische Problem bei JavaScript-basierten Sites. Dein Blogpost wird vielleicht innerhalb von Minuten gecrawlt, aber erst 24 Stunden später gerendert. Solange erscheint er nicht in den Suchergebnissen, obwohl Google die URL technisch „kennt“. Rein serverseitig gerenderte Seiten überspringen diese Warteschlange vollständig.

Phase 3: Indexierung

Sobald Googlebot das finale HTML hat (direkt aus dem Crawl oder nach dem Rendering), analysiert das Indexierungssystem das Dokument, extrahiert Texte, klassifiziert die Inhalte, bewertet Ranking-Signale und speichert alles im Index. Von hier an kann die Seite in den Suchergebnissen erscheinen. Auch dieser Schritt ist nicht sofort abgeschlossen und kann Minuten bis Stunden dauern, doch Googlebot ist nun fertig; den Rest übernehmen die Ranking-Algorithmen.

Was JavaScript-Rendering bricht (und wie man es erkennt)

Die meisten „Googlebot sieht meinen Inhalt nicht“-Fälle sind Rendering-, nicht Crawl-Probleme. Der Crawl klappt fast immer; die Seite rendert nur nicht wie erwartet. Die folgenden sechs Fehlerquellen begegnen uns bei SEOJuice am häufigsten, sortiert nach Auftretenshäufigkeit.

1. Inhalte, die Nutzerinteraktion erfordern: Wenn erst ein „Mehr anzeigen“-Button geklickt werden muss, sieht Googlebot den Abschnitt nicht. Der WRS führt zwar JavaScript aus, klickt aber keine Buttons und scrollt nicht. Wichtige Inhalte müssen beim Initial-Load im DOM sein, selbst wenn CSS sie zunächst ausblendet. Das ist der häufigste Fehler, meist durch Komponentenbibliotheken, die Tab-Panels, Accordion-Bodies oder „Load more“-Feeds lazy mounten.
2. Lazy Loading ohne korrekte Signale: Lazy-geladene Bilder und Blöcke brauchen entweder das native loading="lazy" oder ein Intersection-Observer-Setup, das der WRS auslösen kann. Eigene Bibliotheken, die auf Scroll-Events warten, scheitern häufig, weil es keinen Scroll gibt. Nutze für Bilder loading="lazy"; für Komponenten sorge dafür, dass sie serverseitig gerendert oder in einem Framework mit sauberem SSR/Hydration laufen.
3. JavaScript-Fehler zur Laufzeit: Löst ein Skript am Seitenanfang eine ungefangene Exception aus, laufen nachfolgende Skripte womöglich nicht, und der Rest der Seite bleibt leer. Der WRS sieht nur, was bis zum Fehler gerendert wurde. Nutze im URL-Prüftool die Ansicht „Live-Version testen“, dort siehst du das gerenderte HTML und einen Screenshot.
4. WAF- und Bot-Schutz-Regeln: CAPTCHAs, zu aggressiver „Bot Fight Mode“ in Cloudflare oder simples Geo-Blocking können Googlebot-IPs einen 403 oder Challenge-Screen liefern. Whiteliste die verifizierten Google-IP-Ranges (veröffentlicht als googlebot.json in der Google-Doku), bevor du Botsperren aktivierst. Prüfe jede Änderung mit dem URL-Prüftool.
5. In robots.txt gesperrte Ressourcen: Verbietest du in robots.txt das Crawling von /static/ oder /assets/, kann der WRS die JS- und CSS-Bundles dort nicht abrufen. Ergebnis: Styles fehlen, JS bricht. Erlaube Googlebot den Zugriff auf statische Assets, selbst wenn andere Pfade gesperrt sind.
6. Inhalte hinter Login oder Cookies: Googlebot authentifiziert sich nicht, akzeptiert Cookies nur rudimentär und hält keine Sessions. Alles hinter einer Login-Wall wird nicht indexiert. Für Paywalls nutze die Indexing-API oder Strukturdaten und gib klar an, was geschützt ist.

Echte Googlebot-Anfragen verifizieren

Der Googlebot-User-Agent ist leicht zu fälschen. Jeder kann einen Request mit diesem Header schicken. Echte Googlebot-Anfragen stammen jedoch aus veröffentlichten Google-IP-Ranges, und die einzige zuverlässige Prüfung ist ein Reverse-DNS-Lookup mit anschließendem Forward-Lookup. Google beschreibt die Methode, praktisch geht sie so:

IP-Adresse aus dem Access-Log nehmen.
Reverse DNS Lookup ausführen. Der Hostname muss auf .googlebot.com oder .google.com enden.
Forward Lookup auf diesen Hostnamen durchführen. Er muss auf dieselbe IP zeigen.
Passen beide Checks, ist es echter Googlebot. Scheitert einer, ist es ein Spoof.

Auf der Kommandozeile: host 66.249.66.1 gefolgt von host crawl-66-249-66-1.googlebot.com. Bei großen Sites automatisiere das im Log-Pipeline – oft entpuppen sich vermeintliche „Googlebot-Spikes“ als Drittanbieter-Scraper mit gefälschtem UA.

robots.txt und Crawl-Budget: die taktischen Fragen

Wie viel crawlt Googlebot auf meiner Seite?

Google nennt das Crawl-Budget. Unter etwa 10.000 URLs ist es fast nie ein Engpass. Googlebot crawlt alles Relevante in vertretbarer Zeit. Relevant wird das Budget erst bei Millionen-Sites, facettierten E-Commerce-Sucheinstiegen oder wenn Googlebot Crawl-Ressourcen auf Duplikate oder minderwertige URLs verschwendet. Google veröffentlicht zwei Einflussfaktoren: Crawl-Rate (wie schnell dein Server ohne Fehler antwortet) und Crawl-Demand (Popularität und Änderungsfrequenz der URL).

Sollte ich Googlebot von Low-Value-URLs fernhalten?

Ja, falls diese URLs bei großen Sites das Crawl-Budget belasten. Standardmuster: Such-Facetten-URLs, interne Suchergebnisse, paginierte Archive ab Seite 5, Session-ID-Parameter-Varianten, Admin-Endpunkte blockieren. Nutze robots.txt fürs Crawl-Blocking und noindex-Meta-Tags fürs Index-Blocking. Beides erfüllt unterschiedliche Zwecke: Robots sperrt den Crawl komplett, Noindex erlaubt den Crawl, blockiert aber die Indexierung.

Wie beschleunige ich die Indexierung einer neuen Seite?

Reiche sie im URL-Prüftool der Search Console ein. Das stößt einen separaten Crawl an (Google-InspectionTool, nicht Googlebot) und geht schneller als die reguläre Warteschlange. Verlinke die neue Seite zudem von einer bereits indexierten, autoritativen Seite, damit der nächste reguläre Crawl sie über den Linkgraph findet.

Warum crawlt Googlebot meine Dev-Umgebung?

Weil irgendwann eine URL deiner Staging- oder Dev-Domain öffentlich verlinkt wurde (versehentlich, in einem Issue-Tracker, in Suchergebnissen). Blockiere die gesamte Staging-Domain in robots.txt mit Disallow: / und setze bei sensiblen Inhalten zusätzlich HTTP-Basic-Auth ein.

Debugging: „Googlebot sieht diese Seite nicht“

Systematisch gehst du vier Checks durch, bis einer eine klare Antwort liefert.

Check 1: URL-Prüfung in der Search Console. Gib die URL ein. Das Tool zeigt, ob Google die Seite gecrawlt und indexiert hat, wann zuletzt, und per „Live-Version testen“ das gerenderte HTML plus Screenshot. Fehlen dort Inhalte, liegt das Problem in der Rendering-Phase. Liefert die Seite keinen 200-Status, liegt es im Crawl. Dieser eine Check löst ca. 70 % aller Fälle.

Check 2: curl mit Googlebot-UA. curl -A "Mozilla/5.0 ... Googlebot/2.1 ..." https://deineseite.com/pfad. Gibt dein Server anderen Content für Googlebot als für normale Browser zurück, siehst du es hier. Cloaking (absichtlich oder versehentlich) verursacht oft rätselhafte Indexierungsprobleme.

Check 3: Audit von robots.txt und Meta-Tags. Öffne https://deineseite.com/robots.txt. Prüfe, ob die URL blockiert ist. Dann Quelltext anzeigen und nach noindex suchen. Erstaunlich oft steckt dort noch ein Noindex-Tag aus dem Staging.

Check 4: Server-Log-Analyse. Filtere deine Logs nach verifizierten Googlebot-Hits der letzten 30 Tage. Taucht die URL nie auf, kennt Googlebot sie nicht – Sitemap ergänzen und intern verlinken. Taucht sie auf, liefert aber permanent 4xx/5xx, behebe den Fehler. SEOJuice führt diese Log-Analyse standardmäßig durch und alarmiert dich, sobald eine wichtige URL bei echtem Googlebot-Traffic ausfällt.

Googlebot vs. Bingbot vs. die KI-Crawler

Früher dachte man nur an Googlebot; das hat sich geändert. So schlagen sich die großen Crawler 2026:

Crawler	Betreiber	Rendert JS?	Einsatzgebiet
Googlebot	Google	Ja (aktuelles Chromium)	Google-Suche
Bingbot	Microsoft	Ja (Edge/Chromium)	Bing-Index, Copilot-Grounding
GPTBot	OpenAI	Begrenzt / keine SPA-Unterstützung	ChatGPT-Training
OAI-SearchBot	OpenAI	Begrenzt	ChatGPT-Such-Retrieval
PerplexityBot	Perplexity	Begrenzt	Perplexity-Answer-Engine
ClaudeBot	Anthropic	Begrenzt	Claude-Training & Retrieval
Google-Extended	Google	N/A (reines Signal)	Opt-out-Flag für Gemini-Training

Zwei praktische Konsequenzen. Erstens: KI-Crawler rendern JavaScript meist schlechter als Googlebot. Wenn dein Inhalt clientseitiges Rendering braucht, rankst du eventuell in der Google-Suche, bist aber für ChatGPT, Perplexity und Claude unsichtbar. Die Lösung ist dieselbe wie bei Googlebot: serverseitiges Rendering oder Pre-Rendering. Unser kostenloser AI Visibility Checker zeigt dir in unter einer Minute, ob die großen KI-Engines deine Inhalte sehen. Zweitens: Jeder KI-Crawler hat eigene robots.txt-Direktiven. User-agent: GPTBot blockiert OpenAI-Training, User-agent: Google-Extended blockiert Gemini-Training, User-agent: Googlebot steuert weiterhin den regulären Such-Crawler. Wer in Google-Suche, aber nicht im KI-Training erscheinen will, setzt getrennte Regeln.

Häufig gestellte Fragen

Was ist Googlebot?

Googlebot ist der Webcrawler, mit dem Google Webseiten entdeckt und herunterlädt, damit sie indexiert und in den Suchergebnissen angezeigt werden können. Tatsächlich besteht er aus mehreren Crawlern (Smartphone, Desktop, Image, Video, News) mit unterschiedlichen User-Agent-Strings und Zwecken. Meistens ist mit „Googlebot“ jedoch Googlebot Smartphone gemeint, seit 2023 der primäre Crawler im Mobile-First-Index.

Führt Googlebot JavaScript aus?

Ja. Der Web Rendering Service (WRS) ist ein Headless-Chromium, der JavaScript auf Seiten ausführt, die es benötigen. Die Chromium-Version von Googlebot folgt den aktuellen Chrome-Releases, moderne JS-Features funktionieren daher in der Regel. Der Haken ist die Rendering-Warteschlange: Selbst bei erfolgreichem Rendering kann es Sekunden, Stunden oder Tage nach dem Crawl passieren. Serverseitig gerenderte Seiten überspringen diese Queue.

Wie prüfe ich, ob eine Anfrage wirklich von Googlebot stammt?

Führe einen Reverse-DNS-Lookup auf die IP durch. Echte Googlebot-Hits resolven auf Hostnamen, die auf .googlebot.com oder .google.com enden. Danach Forward-Lookup auf den Hostnamen – er muss auf dieselbe IP zeigen. Scheitert einer der Schritte, handelt es sich um einen gefälschten User-Agent. Der UA-Header allein reicht nicht.

Kann ich Googlebot blockieren?

Ja. Füge in deiner robots.txt User-agent: Googlebot und danach Disallow: / ein. Das blockiert das Crawling, somit wird die Seite nicht indexiert und erscheint nicht in der Google-Suche. Feingranulare Steuerung: noindex-Meta-Tags auf Einzelseiten (Crawl erlaubt, Index verboten) oder spezifische Pfade in robots.txt sperren. Blockiere aber nie CSS- und JS-Bundles – der Renderer braucht sie.

Ist Googlebot dasselbe wie GPTBot oder PerplexityBot?

Nein. Das sind eigenständige Crawler verschiedener Unternehmen mit eigenen Zielen. Googlebot indexiert das Web für die Google-Suche. GPTBot sammelt Trainingsdaten für ChatGPT. PerplexityBot holt Inhalte für die Perplexity-Antwortengine. Jeder nutzt einen eigenen User-Agent und beachtet (oder nicht) eigene robots.txt-Regeln. Du kannst Googlebot erlauben und GPTBot blockieren – oder jede andere Kombination.

Warum hat Googlebot meine neue Seite noch nicht indexiert?

Häufigste Ursachen: Die Seite ist von keiner indexierten URL verlinkt (Google kennt sie nicht), liefert keinen 200-Status, enthält ein noindex-Tag, ist in robots.txt gesperrt oder der Inhalt hängt von JavaScript ab, das der Renderer noch nicht ausgeführt hat. Nutze das URL-Prüftool – „Live-Version testen“ zeigt genau, was Googlebot sieht. Neue Seiten brauchen typischerweise einige Stunden bis Tage, je nach Crawl-Frequenz deiner Site.

Liest Googlebot Inhalte in iframes?

Ja, aber sie werden getrennt vom Parent-Dokument behandelt. Der Content im iframe ist der Quelle-URL des iframes zugeordnet, nicht der einbettenden Seite. Packe deshalb keine Hauptinhalte in iframes, wenn sie dem Parent zugeordnet sein sollen.

Das Wichtigste zu Googlebot in drei Punkten

Erstens: Googlebot besteht aus mehreren Crawlern, wobei Googlebot Smartphone seit Mobile-First der relevante ist. Zweitens: Die Pipeline hat drei Phasen (Crawl, Render, Index); die meisten Probleme sitzen im Render-Schritt. Darum ist „Live-Version testen“ im URL-Prüftool das nützlichste Debugging-Feature. Drittens: KI-Crawler (GPTBot, PerplexityBot, ClaudeBot) rendern JavaScript schlechter als Googlebot. Optimierst du für Googlebot-Rendering (SSR, kritische Inhalte im Initial-HTML, kein JS-Fail-Silencing), wirst du meist auch in KI-Suche sichtbar – umgekehrt nicht zwingend.

Features

Start boosting your SEO today

Resources

Educate yourself