TL;DR. Googlebot ist der Sammelbegriff für die Crawler, mit denen Google Webseiten entdeckt, rendert und indexiert. Es handelt sich nicht um einen einzelnen Bot, sondern um eine ganze Familie. Das wichtigste Mitglied ist Googlebot Smartphone, der die mobile Version deiner Seite mit einem Headless-Chromium durchsucht, das stets der aktuellen stabilen Chrome-Version entspricht. Crawling, Rendering und Indexierung sind drei getrennte Phasen, die Stunden oder Tage auseinanderliegen können. Die meisten „Googlebot-sieht-meine-Seite-nicht“-Probleme stammen von JavaScript, das in der Rendering-Phase lautlos fehlschlägt – nicht vom Crawling. Der Rest dieses Guides erklärt die Bot-Familie, die Drei-Phasen-Pipeline, wie man echte Googlebot-Anfragen verifiziert, beantwortet die üblichen Fragen zu robots.txt und Crawl-Budget und vergleicht Googlebot mit Bingbot, GPTBot, PerplexityBot und ClaudeBot.
Googlebot ist das Programm, mit dem Google Webseiten abruft, damit sie in den Google-Index gelangen. Wenn du einen neuen Blogpost veröffentlichst und er irgendwann in den Suchergebnissen auftaucht, beginnt diese Reise damit, dass Googlebot die URL anfordert, das HTML herunterlädt, das JavaScript ausführt und das Ergebnis an das Indexierungssystem von Google übergibt. Ohne Googlebot existieren deine Seiten für die Google-Suche schlicht nicht.
Zwei Klarstellungen vorab. Erstens wird „Googlebot“ manchmal locker als Synonym für „jeder Google-Crawler“ verwendet. Streng genommen ist Googlebot aber der Crawler, der Seiten für den Hauptindex der Google-Suche abruft. Es gibt weitere Google-Crawler (AdsBot für Landing-Page-Qualität, Storebot für Shopping-Listings, Google-Extended für KI-Opt-outs), aber das sind andere Bots mit eigenen Zwecken und abweichendem Regelwerk. Sei beim Debuggen präzise, welchen Bot du meinst.
Zweitens ist Googlebot kein Scraper. Ein Scraper holt sich ohne Erlaubnis alles von deiner Seite und nutzt die Daten nach Belieben. Googlebot liest vor jedem Crawl deine robots.txt, respektiert noindex-Meta-Tags, drosselt sich, wenn dein Server langsamer wird, und identifiziert sich im Request-Header, damit du die Anfrage als echt verifizieren kannst. Wenn du in den Logs einen „Googlebot“-Hit siehst, der deinen Origin ohne Pause bombardiert, ist das fast sicher kein echter Googlebot, sondern jemand, der den User-Agent fälscht.
Der Bot, über den du am häufigsten nachdenken musst, ist Googlebot Smartphone. Seit Google 2023 das Mobile-First-Indexing abgeschlossen hat, crawlt er standardmäßig die mobile Version deiner Seite. Desktop-Crawls gibt es noch, aber sie sind jetzt zweitrangig. Hier der Stammbaum mit den exakten User-Agent-Strings, die Google veröffentlicht:
| Crawler | User-Agent-String (Auszug) | Aufgabe |
|---|---|---|
| Googlebot Smartphone | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X...) ... Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | Hauptcrawler für die mobile Version deiner Seite. Verantwortlich für den Großteil der Indexierung. |
| Googlebot Desktop | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36 | Crawlt Desktop-Varianten. Seit Mobile-First nur noch geringer Anteil am Crawl-Traffic. |
| Googlebot Image | Googlebot-Image/1.0 | Ruft Bilder für Google Bilder ab. Eigener Bot, eigene Regeln. |
| Googlebot Video | Googlebot-Video/1.0 | Ruft Videodateien für Google Videos ab. |
| Googlebot News | Kein eigener UA — nutzt diverse Googlebot-Strings | Crawlt Inhalte für Google News. Identifikation nur über IP möglich, nicht über UA. |
| Google-InspectionTool | Mozilla/5.0 (compatible; Google-InspectionTool/1.0;) | Wird ausgelöst, wenn du das URL-Prüftool in der Search Console nutzt. Umgeht teilweise Caches. |
Der Platzhalter W.X.Y.Z in den Smartphone- und Desktop-User-Agents ist nicht wörtlich zu verstehen. Google setzt zur Anfragezeit die tatsächliche Chromium-Version ein, die sich fortlaufend an der aktuellen stabilen Chrome-Version orientiert. Stand heute liegt das Rendering-Engine-Level von Googlebot nur wenige Wochen hinter dem öffentlichen Chrome-Release. Nutzt deine Seite also ein JavaScript-Feature, das Chrome 130+ erfordert, wird Googlebot es wahrscheinlich unterstützen. Benötigt es etwas, das noch nicht ausgeliefert wurde, unterstützt Googlebot es nicht. Genau das übersehen viele Diskussionen um „Ist mein JS zu modern für Googlebot?“. Der Renderer ist aktuell, nicht auf Chrome 41 eingefroren wie früher.
Die Arbeit von Googlebot gliedert sich in drei separate Phasen. Sie laufen nicht gleichzeitig ab, und Verzögerungen oder Fehler in einer Phase können deine Seite aus den Suchergebnissen heraushalten. Googles eigene Doku fasst es knapp zusammen: „Google verarbeitet JavaScript-Web-Apps in drei Hauptphasen: 1. Crawling 2. Rendering 3. Indexierung.“ Wer diese Grenzen versteht, kann Indexierungsprobleme gezielt debuggen – alle anderen raten.
Googlebot wählt eine URL aus seiner Warteschlange, sendet einen HTTP-Request und erhält die rohe HTML-Antwort. Mehr passiert hier nicht. Es wird noch kein JavaScript ausgeführt, kein gerendertes DOM begutachtet. Der Crawler liest den Statuscode, die Response-Header (inklusive Caching-Headern, X-Robots-Tag und Redirects) sowie den HTML-Body. URLs gelangen in die Warteschlange über XML-Sitemaps, interne Links bereits indexierter Seiten, externe Links anderer Sites und direkte Einreichungen via URL-Prüftool.
Wenn die rohe HTML-Antwort bereits alle indexrelevanten Inhalte enthält (klassisches serverseitiges Rendering), hat Googlebot genug für den nächsten Schritt. Fehlt der Großteil des Inhalts und wird erst per JavaScript injiziert, geht die Seite als Nächstes in die Rendering-Phase. Vor jedem Crawl liest Googlebot außerdem die robots.txt. Ist eine URL dort gesperrt, wird sie nicht einmal abgerufen.
Benötigt eine Seite JavaScript, um Inhalte anzuzeigen, übergibt Googlebot die URL an den Web Rendering Service (WRS). Dieser Headless-Chromium lädt die Seite in einer Browser-Umgebung, führt die Skripte aus und erzeugt das finale gerenderte HTML. Google beschreibt das nüchtern: „Sobald genügend Ressourcen zur Verfügung stehen, rendert ein Headless-Chromium die Seite und führt das JavaScript aus.“
Die Formulierung „sobald genügend Ressourcen zur Verfügung stehen“ trägt viel Bedeutung. Rendering ist teuer (vollständiger Browser, JS-Ausführung, Netzwerk-Requests), daher bündelt Google die Aufgabe und stellt sie in eine Warteschlange. Seiten können dort Sekunden, Stunden oder im schlimmsten Fall Tage verweilen. Die offizielle Aussage bleibt absichtlich vage: „Die Seite kann nur wenige Sekunden in dieser Warteschlange sein, es kann jedoch länger dauern.“
Diese Rendering-Verzögerung ist das größte praktische Problem bei JavaScript-basierten Sites. Dein Blogpost wird vielleicht innerhalb von Minuten gecrawlt, aber erst 24 Stunden später gerendert. Solange erscheint er nicht in den Suchergebnissen, obwohl Google die URL technisch „kennt“. Rein serverseitig gerenderte Seiten überspringen diese Warteschlange vollständig.
Sobald Googlebot das finale HTML hat (direkt aus dem Crawl oder nach dem Rendering), analysiert das Indexierungssystem das Dokument, extrahiert Texte, klassifiziert die Inhalte, bewertet Ranking-Signale und speichert alles im Index. Von hier an kann die Seite in den Suchergebnissen erscheinen. Auch dieser Schritt ist nicht sofort abgeschlossen und kann Minuten bis Stunden dauern, doch Googlebot ist nun fertig; den Rest übernehmen die Ranking-Algorithmen.
Die meisten „Googlebot sieht meinen Inhalt nicht“-Fälle sind Rendering-, nicht Crawl-Probleme. Der Crawl klappt fast immer; die Seite rendert nur nicht wie erwartet. Die folgenden sechs Fehlerquellen begegnen uns bei SEOJuice am häufigsten, sortiert nach Auftretenshäufigkeit.
loading="lazy" oder ein Intersection-Observer-Setup, das der WRS auslösen kann. Eigene Bibliotheken, die auf Scroll-Events warten, scheitern häufig, weil es keinen Scroll gibt. Nutze für Bilder loading="lazy"; für Komponenten sorge dafür, dass sie serverseitig gerendert oder in einem Framework mit sauberem SSR/Hydration laufen.googlebot.json in der Google-Doku), bevor du Botsperren aktivierst. Prüfe jede Änderung mit dem URL-Prüftool.robots.txt das Crawling von /static/ oder /assets/, kann der WRS die JS- und CSS-Bundles dort nicht abrufen. Ergebnis: Styles fehlen, JS bricht. Erlaube Googlebot den Zugriff auf statische Assets, selbst wenn andere Pfade gesperrt sind.Der Googlebot-User-Agent ist leicht zu fälschen. Jeder kann einen Request mit diesem Header schicken. Echte Googlebot-Anfragen stammen jedoch aus veröffentlichten Google-IP-Ranges, und die einzige zuverlässige Prüfung ist ein Reverse-DNS-Lookup mit anschließendem Forward-Lookup. Google beschreibt die Methode, praktisch geht sie so:
.googlebot.com oder .google.com enden.Auf der Kommandozeile: host 66.249.66.1 gefolgt von host crawl-66-249-66-1.googlebot.com. Bei großen Sites automatisiere das im Log-Pipeline – oft entpuppen sich vermeintliche „Googlebot-Spikes“ als Drittanbieter-Scraper mit gefälschtem UA.
Google nennt das Crawl-Budget. Unter etwa 10.000 URLs ist es fast nie ein Engpass. Googlebot crawlt alles Relevante in vertretbarer Zeit. Relevant wird das Budget erst bei Millionen-Sites, facettierten E-Commerce-Sucheinstiegen oder wenn Googlebot Crawl-Ressourcen auf Duplikate oder minderwertige URLs verschwendet. Google veröffentlicht zwei Einflussfaktoren: Crawl-Rate (wie schnell dein Server ohne Fehler antwortet) und Crawl-Demand (Popularität und Änderungsfrequenz der URL).
Ja, falls diese URLs bei großen Sites das Crawl-Budget belasten. Standardmuster: Such-Facetten-URLs, interne Suchergebnisse, paginierte Archive ab Seite 5, Session-ID-Parameter-Varianten, Admin-Endpunkte blockieren. Nutze robots.txt fürs Crawl-Blocking und noindex-Meta-Tags fürs Index-Blocking. Beides erfüllt unterschiedliche Zwecke: Robots sperrt den Crawl komplett, Noindex erlaubt den Crawl, blockiert aber die Indexierung.
Reiche sie im URL-Prüftool der Search Console ein. Das stößt einen separaten Crawl an (Google-InspectionTool, nicht Googlebot) und geht schneller als die reguläre Warteschlange. Verlinke die neue Seite zudem von einer bereits indexierten, autoritativen Seite, damit der nächste reguläre Crawl sie über den Linkgraph findet.
Weil irgendwann eine URL deiner Staging- oder Dev-Domain öffentlich verlinkt wurde (versehentlich, in einem Issue-Tracker, in Suchergebnissen). Blockiere die gesamte Staging-Domain in robots.txt mit Disallow: / und setze bei sensiblen Inhalten zusätzlich HTTP-Basic-Auth ein.
Systematisch gehst du vier Checks durch, bis einer eine klare Antwort liefert.
Check 1: URL-Prüfung in der Search Console. Gib die URL ein. Das Tool zeigt, ob Google die Seite gecrawlt und indexiert hat, wann zuletzt, und per „Live-Version testen“ das gerenderte HTML plus Screenshot. Fehlen dort Inhalte, liegt das Problem in der Rendering-Phase. Liefert die Seite keinen 200-Status, liegt es im Crawl. Dieser eine Check löst ca. 70 % aller Fälle.
Check 2: curl mit Googlebot-UA. curl -A "Mozilla/5.0 ... Googlebot/2.1 ..." https://deineseite.com/pfad. Gibt dein Server anderen Content für Googlebot als für normale Browser zurück, siehst du es hier. Cloaking (absichtlich oder versehentlich) verursacht oft rätselhafte Indexierungsprobleme.
Check 3: Audit von robots.txt und Meta-Tags. Öffne https://deineseite.com/robots.txt. Prüfe, ob die URL blockiert ist. Dann Quelltext anzeigen und nach noindex suchen. Erstaunlich oft steckt dort noch ein Noindex-Tag aus dem Staging.
Check 4: Server-Log-Analyse. Filtere deine Logs nach verifizierten Googlebot-Hits der letzten 30 Tage. Taucht die URL nie auf, kennt Googlebot sie nicht – Sitemap ergänzen und intern verlinken. Taucht sie auf, liefert aber permanent 4xx/5xx, behebe den Fehler. SEOJuice führt diese Log-Analyse standardmäßig durch und alarmiert dich, sobald eine wichtige URL bei echtem Googlebot-Traffic ausfällt.
Früher dachte man nur an Googlebot; das hat sich geändert. So schlagen sich die großen Crawler 2026:
| Crawler | Betreiber | Rendert JS? | Einsatzgebiet |
|---|---|---|---|
| Googlebot | Ja (aktuelles Chromium) | Google-Suche | |
| Bingbot | Microsoft | Ja (Edge/Chromium) | Bing-Index, Copilot-Grounding |
| GPTBot | OpenAI | Begrenzt / keine SPA-Unterstützung | ChatGPT-Training |
| OAI-SearchBot | OpenAI | Begrenzt | ChatGPT-Such-Retrieval |
| PerplexityBot | Perplexity | Begrenzt | Perplexity-Answer-Engine |
| ClaudeBot | Anthropic | Begrenzt | Claude-Training & Retrieval |
| Google-Extended | N/A (reines Signal) | Opt-out-Flag für Gemini-Training |
Zwei praktische Konsequenzen. Erstens: KI-Crawler rendern JavaScript meist schlechter als Googlebot. Wenn dein Inhalt clientseitiges Rendering braucht, rankst du eventuell in der Google-Suche, bist aber für ChatGPT, Perplexity und Claude unsichtbar. Die Lösung ist dieselbe wie bei Googlebot: serverseitiges Rendering oder Pre-Rendering. Unser kostenloser AI Visibility Checker zeigt dir in unter einer Minute, ob die großen KI-Engines deine Inhalte sehen. Zweitens: Jeder KI-Crawler hat eigene robots.txt-Direktiven. User-agent: GPTBot blockiert OpenAI-Training, User-agent: Google-Extended blockiert Gemini-Training, User-agent: Googlebot steuert weiterhin den regulären Such-Crawler. Wer in Google-Suche, aber nicht im KI-Training erscheinen will, setzt getrennte Regeln.
Googlebot ist der Webcrawler, mit dem Google Webseiten entdeckt und herunterlädt, damit sie indexiert und in den Suchergebnissen angezeigt werden können. Tatsächlich besteht er aus mehreren Crawlern (Smartphone, Desktop, Image, Video, News) mit unterschiedlichen User-Agent-Strings und Zwecken. Meistens ist mit „Googlebot“ jedoch Googlebot Smartphone gemeint, seit 2023 der primäre Crawler im Mobile-First-Index.
Ja. Der Web Rendering Service (WRS) ist ein Headless-Chromium, der JavaScript auf Seiten ausführt, die es benötigen. Die Chromium-Version von Googlebot folgt den aktuellen Chrome-Releases, moderne JS-Features funktionieren daher in der Regel. Der Haken ist die Rendering-Warteschlange: Selbst bei erfolgreichem Rendering kann es Sekunden, Stunden oder Tage nach dem Crawl passieren. Serverseitig gerenderte Seiten überspringen diese Queue.
Führe einen Reverse-DNS-Lookup auf die IP durch. Echte Googlebot-Hits resolven auf Hostnamen, die auf .googlebot.com oder .google.com enden. Danach Forward-Lookup auf den Hostnamen – er muss auf dieselbe IP zeigen. Scheitert einer der Schritte, handelt es sich um einen gefälschten User-Agent. Der UA-Header allein reicht nicht.
Ja. Füge in deiner robots.txt User-agent: Googlebot und danach Disallow: / ein. Das blockiert das Crawling, somit wird die Seite nicht indexiert und erscheint nicht in der Google-Suche. Feingranulare Steuerung: noindex-Meta-Tags auf Einzelseiten (Crawl erlaubt, Index verboten) oder spezifische Pfade in robots.txt sperren. Blockiere aber nie CSS- und JS-Bundles – der Renderer braucht sie.
Nein. Das sind eigenständige Crawler verschiedener Unternehmen mit eigenen Zielen. Googlebot indexiert das Web für die Google-Suche. GPTBot sammelt Trainingsdaten für ChatGPT. PerplexityBot holt Inhalte für die Perplexity-Antwortengine. Jeder nutzt einen eigenen User-Agent und beachtet (oder nicht) eigene robots.txt-Regeln. Du kannst Googlebot erlauben und GPTBot blockieren – oder jede andere Kombination.
Häufigste Ursachen: Die Seite ist von keiner indexierten URL verlinkt (Google kennt sie nicht), liefert keinen 200-Status, enthält ein noindex-Tag, ist in robots.txt gesperrt oder der Inhalt hängt von JavaScript ab, das der Renderer noch nicht ausgeführt hat. Nutze das URL-Prüftool – „Live-Version testen“ zeigt genau, was Googlebot sieht. Neue Seiten brauchen typischerweise einige Stunden bis Tage, je nach Crawl-Frequenz deiner Site.
Ja, aber sie werden getrennt vom Parent-Dokument behandelt. Der Content im iframe ist der Quelle-URL des iframes zugeordnet, nicht der einbettenden Seite. Packe deshalb keine Hauptinhalte in iframes, wenn sie dem Parent zugeordnet sein sollen.
Erstens: Googlebot besteht aus mehreren Crawlern, wobei Googlebot Smartphone seit Mobile-First der relevante ist. Zweitens: Die Pipeline hat drei Phasen (Crawl, Render, Index); die meisten Probleme sitzen im Render-Schritt. Darum ist „Live-Version testen“ im URL-Prüftool das nützlichste Debugging-Feature. Drittens: KI-Crawler (GPTBot, PerplexityBot, ClaudeBot) rendern JavaScript schlechter als Googlebot. Optimierst du für Googlebot-Rendering (SSR, kritische Inhalte im Initial-HTML, kein JS-Fail-Silencing), wirst du meist auch in KI-Suche sichtbar – umgekehrt nicht zwingend.
Ähnliche Themen: SEO für Single-Page-Applications • Answer Engine Optimization (AEO) • Kostenloses SEO-Audit-Tool • Kostenloser AI Visibility Checker
no credit card required