Crawl-Budget-Optimierung

Stand: März 2026 — Abgeglichen anhand der neuesten Google-Dokumentation zum Crawl Budget, gegengeprüft mit Gary Illyes’ Deep-Dive zum Crawl Budget von 2024 und getestet mit echten Server-Logdaten von SEOJuice-Kundenseiten.

TL;DR: Wenn Ihre Website weniger als 10.000 Seiten hat, ist das Crawl Budget sehr wahrscheinlich nicht Ihr Problem. Hören Sie auf, es zu optimieren. Aber wenn Sie einen E-Commerce-Shop mit 500K Produktseiten betreiben, eine Kleinanzeigen-Plattform mit unendlichen URL-Parametern oder irgendetwas mit Facettennavigation — dann tötet das Crawl Budget Ihr Indexing still und heimlich. Diese Anleitung zeigt, wie Sie diagnostizieren, ob Sie wirklich ein Crawl-Budget-Problem haben, und wie Sie es beheben, falls ja. Die Antwort ist meistens langweilig: schnellere Server, sauberere URLs, besseres robots.txt.

Was Crawl Budget wirklich ist (und was nicht)

Diagramm, das zeigt, wie Webcrawler Seitendaten für Suchergebnisse entdecken, abrufen und speichern — So arbeiten Webcrawler: URLs crawlen, Inhalte abrufen, Daten speichern und Suchergebnisse beeinflussen. Quelle: Semrush Blog

Ihr tatsächliches Crawl Budget ist das kleinere von diesen beiden. Wenn Google heute wirklich 50.000 Ihrer Seiten crawlen will (hohe Nachfrage), aber Ihr Server nur 5.000 Abrufe verarbeiten kann, ohne langsamer zu werden (niedrige Rate Limit), bekommen Sie 5.000. Wenn Ihr Server 100.000 Abrufe schafft, aber Google nur 2.000 Ihrer Seiten wirklich relevant findet (niedrige Nachfrage), bekommen Sie 2.000.

Genau hier machen die meisten Guides einen Fehler. Sie behandeln das Crawl Budget wie einen festen Pool, den Sie „sparen“ müssen, indem Sie unwichtige Seiten blockieren. In Wahrheit ist es dynamisch, ändert sich täglich — und bei den meisten Websites ist es überhaupt nicht der Engpass.

Für die meisten Websites: Crawl Budget ist nicht Ihr Problem

Ich muss das klar sagen, weil ich gesehen habe, wie Agenturen Crawl-Budget-Optimierung an Websites mit 200 Seiten verkaufen.

Wenn Ihre Seite weniger als etwa 10.000 eindeutige URLs hat, ist Crawl-Budget-Optimierung höchstwahrscheinlich Zeitverschwendung.

Gary Illyes hat das selbst mehrfach gesagt — unter anderem bei Google I/O und auf Twitter. Seine genaue Formulierung: „Wenn Ihre Website ein paar tausend URLs hat, wird sie in den meisten Fällen effizient gecrawlt.“ Martin Splitt, Googles Developer Advocate, hat das in einer JavaScript-SEO-Office-Hours-Folge aufgegriffen und gesagt, dass Crawl Budget erst dann wirklich „zum Thema wird, sobald man im Bereich von zehntausenden Seiten oder mehr landet“.

Google crawlt Milliarden von Seiten pro Tag. Ihr WordPress-Blog mit 500 Seiten ist ein Rundungsfehler. Google crawlt alles davon innerhalb weniger Tage — ohne dass Sie irgendetwas Spezielles tun müssen.

Wann Crawl Budget wirklich relevant ist:

Große E-Commerce-Seiten — 50K+ Produktseiten, insbesondere wenn Facettennavigation Millionen URL-Kombinationen erzeugt
Kleinanzeigen- und Listing-Seiten — dort, wo URL-Parameter nahezu unendliche crawlbare URLs erzeugen
News-Websites — täglich hunderte Artikel, die schnell indexiert werden müssen
Websites mit starken technischen Problemen — selbst eine 1.000-Seiten-Website kann Crawl-Probleme haben, wenn Ihr Server 8 Sekunden braucht oder Redirects in einer Schleife enden
Plattformen für nutzergenerierte Inhalte — Foren, Q&A-Seiten, Wikis mit massiven Seitenanzahlen

Wenn nichts davon auf Sie zutrifft, springen Sie zum FAQ-Bereich unten und machen Sie mit Ihrem Leben weiter. Ernsthaft. Investieren Sie Ihre Zeit stattdessen in Content-Qualität und internes Linking. Ich glaube immer noch, dass das ein Punkt ist, den 90% derjenigen hören sollten, die „Crawl-Budget-Optimierung“ machen: Ihr Problem sitzt sehr wahrscheinlich ganz woanders.

Wie Sie erkennen, ob Sie wirklich ein Crawl-Budget-Problem haben

Google Search Console Crawl-Statistiken: Bericht über die gesamten Crawl-Anfragen innerhalb von 90 Tagen — Der Bericht „Crawl Stats“ in Google Search Console zeigt die Gesamtzahl der Crawl-Anfragen, die Download-Größe und die durchschnittliche Antwortzeit über 90 Tage. Quelle: Semrush Blog

2. Prüfen Sie Ihre Indexierungslücke. Vergleichen Sie die Anzahl der Seiten in Ihrer Sitemap mit der Anzahl der indexierten Seiten im GSC-„Pages“-Bericht. Wenn Sie 100.000 URLs in der Sitemap haben, aber nur 40.000 indexiert sind, dann verbraucht irgendetwas Ihr Crawl Budget, bevor es überhaupt bei den Seiten ankommt, die zählen.

3. Schauen Sie in die Server-Logs. Das ist die echte Diagnose. GSC liefert aggregierte Daten. Server-Logs liefern die Wahrheit — jede einzelne Anfrage, die Googlebot gemacht hat, wann, auf welche URL und mit welcher Antwort. Wenn Sie sehen, dass Googlebot 60% seines Crawls für paginierte Archivseiten oder gefilterte URLs ausgibt, dann ist das Ihr Problem — schwarz auf weiß.

Ich bin offen mit einer Einschränkung: Ich bin nicht sicher, dass der GSC-Crawl-Stats-Bericht immer verlässlich ist. Wir haben Abweichungen zwischen dem, was GSC meldet, und dem, was die Server-Logs unserer Kunden zeigen, gesehen. Manchmal deutlich — Lücken von 30–40%. Ich weiß nicht, ob das ein Sampling-Thema auf Googles Seite ist, ein Caching-Artefakt oder etwas anderes. Deshalb empfehle ich immer, bei hohen Einsätzen mit Server-Logs zu verifizieren.

Diagnose-Signal	Gesund	Warnung	Kritisch
Neue Seite indexiert innerhalb von	1-3 Tagen	1-2 Wochen	4+ Wochen oder nie
GSC Crawl-Anfragen/Tag vs. Gesamtseiten	> 50% der Seiten pro Woche gecrawlt	10-50% pro Woche	< 10% pro Woche
Durchschnittliche Server-Antwortzeit	200ms	200-500ms	> 500ms
% Crawl auf nicht indexierbaren URLs	< 10%	10-30%	> 30%
Redirect Chains im Crawl	Keine	5% der Anfragen	> 5% treffen auf Chains
5xx-Fehlerrate während des Crawls	0%	1%	> 1%

Hinweis: Diese Schwellenwerte basieren auf Erfahrungswerten aus Mustern in den SEOJuice-Kundendaten und nicht auf offiziellen Zahlen, die Google veröffentlicht hat. Je nach Website-Größe, Nische und Serverarchitektur kann es Abweichungen geben.

Wenn die meisten Ihrer Signale in der Spalte „Gesund“ liegen, haben Sie kein Crawl-Budget-Problem. Optimieren Sie lieber etwas anderes.

Server-Antwortzeit: Der größte Hebel, den Sie nicht ziehen

Dieser Crawl-Budget-Faktor hat den höchsten Einfluss und bekommt am wenigsten Aufmerksamkeit. Jeder will über robots.txt und Sitemaps sprechen. Niemand will darüber sprechen, warum Ihr Server für eine einfache HTML-Anfrage 1,2 Sekunden braucht.

Googlebot ist höflich. Er überwacht Ihre Server-Antwortzeit in Echtzeit. Wenn Ihr Server langsamer wird, senkt Googlebot seine Crawl-Rate, um Sie nicht zu überlasten. Das ist Crawl-Rate-Limit in Aktion. Ein Server mit 100ms Antwortzeit wird deutlich stärker gecrawlt als einer, der 800ms braucht.

"If the site is really fast, Googlebot will be able to use more connections and crawl the site faster. If the site slows down or responds with server errors, it will slow down and crawl less."

— Gary Illyes, Senior Search Analyst, Google (Google Developers Blog)

Das ist ein direktes Zitat aus dem offiziellen Crawl-Budget-Blogpost. „Richtig schnell“ bedeutet für Google < 200ms bis zum Time to First Byte (TTFB). Nicht die Ladezeit der Seite — sondern TTFB. Also: Wie lange es dauert, bis Ihr Server anfängt, die HTML-Antwort zu senden.

Kurzfristige Quick Wins für die Server-Antwortzeit:

Serverseitiges Caching aktivieren — Varnish, Redis oder Full-Page Caching. Wenn Googlebot auf eine Produktseite trifft und Ihr Server 14 Tabellen abfragt, um das HTML zu bauen, cachen Sie die Ausgabe.
CDN für HTML nutzen — nicht nur für statische Assets. Full-Page-CDN-Caching (Cloudflare, Fastly) kann HTML für Googlebot unter 50ms ausliefern.
Hosting upgraden — Ich habe überraschend große Umsatzsites auf zu schwachem Hosting gesehen: Shared Plans oder das Äquivalent davon: eine einzelne leistungsschwache VPS. 2GB RAM, um 100K Produktseiten zu bedienen, funktioniert nicht.
Datenbankabfragen optimieren — Nummer eins bei langsamem TTFB auf dynamischen Seiten. Indexieren Sie Ihre am häufigsten abgefragten Spalten. Nutzen Sie Connection Pooling.

Bei einer SEOJuice-Kundenseite (Furniture-E-Commerce-Shop, grob 80K Produktseiten) haben wir beobachtet, wie die Crawl-Rate in GSC innerhalb von zwei Wochen von 15.000 Requests/Tag auf 3.000 fiel. Keine Änderungen an Content oder Struktur. Ursache? Ihr Hosting-Provider hat sie auf einen neuen Server-Cluster migriert und TTFB ging von 180ms auf 900ms. Nachdem sie das Hosting behoben hatten, erholte sich die Crawl-Rate innerhalb von vier Tagen. Keine robots.txt-Änderungen. Keine Sitemap-Updates. Nur schnellere Server.

URL-Parameter und die Crawl-Falle

URL-Parameter sind die häufigste Quelle für Crawl Waste. Und das Problem ist heimtückisch, weil man oft nicht merkt, dass es passiert.

Betrachten Sie einen E-Commerce-Shop mit Filtern. Ein Nutzer stöbert Schuhe, wählt aus: Größe 10, Farbe schwarz, Marke Nike, sortiert nach Preis, Seite 2. Das ist dann eine URL wie:

/shoes?size=10&color=black&brand=nike&sort=price&page=2

Jetzt multiplizieren Sie das mit allen möglichen Kombinationen. 8 Größen, 12 Farben, 40 Marken, 4 Sortieroptionen, 50 Ergebnis-Seiten. Das ergibt: 8 × 12 × 40 × 4 × 50 = 768.000 URLs. Von einer Kategorie-Seite. Und der Content in den meisten dieser Seiten überschneidet sich stark — Größe 10 schwarz Nike-Schuhsortiert nach Preis ist größtenteils dasselbe wie Größe 10 schwarz Nike-Schuhsortiert nach „neueste“.

Googlebot weiß das nicht. Er sieht 768.000 eindeutige URLs und beginnt zu crawlen. Ihre echten Produktseiten — also die, die ranken sollen — sitzen in einer Warteschlange hinter hunderttausenden gefilterten Varianten, nach denen nie jemand suchen wird.

Das meinen Leute mit „Facettierte Navigation erzeugt Crawl Traps“. Es ist nicht so, dass Google in einer endlosen Schleife feststeckt (auch wenn das bei bestimmten Paginierungs-Setups passieren kann). Es ist so, dass Google sein begrenztes Crawl Budget auf URLs verteilt, die keinen echten Mehrwert liefern.

Ich möchte an dieser Stelle präzise sein: Das URL-Parameter-Tool in der Google Search Console wurde 2022 abgekündigt und entfernt. Google hatte früher die Möglichkeit, welche Parameter es ignorieren soll, vorzugeben. Diese Option ist weg. Stattdessen haben Sie jetzt drei Werkzeuge:

Robots.txt — Parameter-Muster komplett blockieren
Canonical-Tags — gefilterte Seiten auf die ungefilterte Version zurückführen
Noindex-Meta-Tag — Google anweisen, bestimmte gefilterte Seiten nicht zu indexieren

Jedes hat Trade-offs. Ich decke robots.txt und Canonicals weiter unten in eigenen Abschnitten ab.

Robots.txt: Strategisches Blocken

Ihre robots.txt ist die erste Datei, die Googlebot prüft, bevor er Ihre Website crawlt. Gleichzeitig ist sie die am häufigsten missverstandene Datei im SEO. Entweder lässt man sie leer (verpasst eine Chance) oder man geht zu weit (blockiert Dinge, die man nicht blockieren sollte).

Die entscheidende Grundregel: Blocken Sie Dinge, die Crawl Budget verschwenden, nicht Dinge, die „unwichtig“ sind. Das ist ein Unterschied. Eine „unwichtige“ Seite muss möglicherweise trotzdem indexiert werden. Eine Seite, die Crawl Budget verschwendet, liefert keinen einzigartigen Suchwert und existiert nur in Tausenden von Parameter-Variationen.

# Block faceted navigation parameters
User-agent: *
Disallow: /*?sort=
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*&sort=
Disallow: /*&color=
Disallow: /*&size=

# Block internal search results
Disallow: /search?
Disallow: /search/

# Block session-based URLs
Disallow: /*?sessionid=
Disallow: /*?ref=

# Block admin, cart, and account pages
Disallow: /admin/
Disallow: /cart/
Disallow: /my-account/
Disallow: /checkout/

# Block print and PDF versions
Disallow: /*?print=
Disallow: /*?format=pdf

# DO NOT block CSS, JS, or images
# Googlebot needs these to render your pages
Allow: /*.css
Allow: /*.js
Allow: /*.jpg
Allow: /*.png
Allow: /*.webp

Sitemap: https://example.com/sitemap.xml

Schwere Fehler, die ich gesehen habe:

CSS/JS-Dateien blockieren. Das war 2012 halbwegs akzeptabel. 2026 führt es zu Render-Problemen und Google wird Ihre Seiten dafür abstrafen. Google muss Ihre Seiten rendern, um sie zu verstehen.
Ganze Verzeichnisse blockieren, die indexierbare Seiten enthalten. Jemand blockiert /products/, weil er /products?filter= blockieren will — und indexiert aus Versehen seinen gesamten Katalog ab.
Robots.txt nutzen, um Duplicate Content zu handhaben. Robots.txt verhindert Crawling, nicht Indexierung. Wenn eine blockierte URL externe Backlinks hat, kann Google sie trotzdem indexieren — nur ohne Content sehen zu können. Nutzen Sie Canonical-Tags für Duplicate Content. Nutzen Sie robots.txt für Crawl Waste.

Punkt Nummer drei lohnt sich zu wiederholen, weil er auch erfahrene SEOs erwischt. Robots.txt blockiert Crawling. Sie blockiert kein Indexing. Wenn Sie Indexierung verhindern wollen, nutzen Sie <meta name="robots" content="noindex"> oder einen X-Robots-Tag als HTTP-Header. Aber denken Sie daran: Damit Google einen noindex-Tag sieht, muss es die Seite zuerst crawlen. Wenn Sie also Crawling per robots.txt blockieren UND noindex hinzufügen, wird Google den noindex-Tag nie sehen. Das erzeugt ein Paradox, das Menschen seit Jahren verwirrt.

XML-Sitemaps: Ihr Crawl-Prioritäts-Signal

Eine Sitemap garantiert kein Indexing. Sie garantiert nicht einmal Crawling. Was sie macht: Google einen Hinweis geben, welche URLs existieren, wann sie zuletzt geändert wurden und (zumindest diskutierbar) wie wichtig sie im Verhältnis zueinander sind.

Die Fehler, die Menschen mit Sitemaps machen, liegen fast immer darin, zu viel aufzunehmen — nicht zu wenig.

Was Sie in Ihre Sitemap aufnehmen sollten:

Jede Seite, die Sie indexiert haben wollen — und nur Seiten, die Sie indexiert haben wollen
Seiten, die 200-Statuscodes zurückgeben
Self-canonicalisierende Seiten (die Canonical-URL zeigt auf sich selbst)
Exakte <lastmod>-Daten — nicht das aktuelle Datum, nicht das gleiche Datum auf jeder Seite, sondern das echte Datum der letzten Änderung

Was Sie aus Ihrer Sitemap ausschließen sollten:

Seiten, die durch robots.txt blockiert sind
Seiten mit noindex-Tags
Redirect-URLs (Ziel aufnehmen, nicht die Quelle)
Parameter-URLs (nur die Canonical-Version aufnehmen)
Paginierte Seiten (diskussionswürdig — ich schließe sie aus, andere nehmen sie auf)
Soft-404-Seiten oder Thin-Content-Seiten, von denen Sie wissen, dass Google sie nicht indexieren wird

Ich habe Sitemaps mit 500.000 URLs gesehen, bei denen tatsächlich nur 80.000 indexierbar waren. Die anderen 420.000 waren Redirects, noindexed-Seiten, Parameter-Variationen und kaputte URLs. Diese Sitemap hilft Google nicht — sie schickt es auf eine Schatzsuche, bei der 84% der Karte falsch sind.

Martin Splitt hat <lastmod> als „eines der am häufigsten missbrauchten Tags in Sitemaps“ bezeichnet, weil so viele CMS-Plattformen es auf das aktuelle Datum für jede Seite setzen. Wenn jede Seite sagt „Ich wurde gerade erst geändert“, lernt Google, dieses Signal komplett zu ignorieren. Wenn Ihr CMS keine echten Änderungsdaten trackt, fixen Sie das, bevor Sie sich mit anderen Sitemap-Themen beschäftigen.

Facettierte Navigation: Das eigentliche Problem

Ich widme der Facettennavigation einen eigenen Abschnitt, weil sie die Schnittstelle aus Crawl Budget, Duplicate Content und technischer Architektur ist — und wenn man sie falsch angeht, kann es das SEO einer Seite still über Monate hinweg ruinieren.

Das Problem: Facettierte Navigation (Filter in E-Commerce, Kleinanzeigen, Jobbörsen) erzeugt exponentiell viele URL-Kombinationen. Die Mathematik haben wir oben gesehen. Aber die Lösung ist nicht so simpel wie „alles mit robots.txt blockieren“, denn einige facettierte Seiten haben echten Suchwert.

Denk dran: „Nike-Laufschuhe Größe 10“ ist eine echte Suchanfrage, die eine echte Person in Google eingibt. Eine facettierte Seite, die dazu passt, könnte dafür ranken. Alle facettierten URLs zu blockieren bedeutet, diese Chance zu verlieren.

Das Framework, das ich empfehle (und das wir für SEOJuice-Kunden mit genau diesem Problem umsetzen):

Facet-Typ	Beispiel	Suchwert	Empfohlener Ansatz
Kategorie + Marke	/shoes/nike/	Hoch — Leute suchen nach Marke+Kategorie	Indexieren, in Sitemap aufnehmen, saubere URL nutzen
Kategorie + 1 Filter	/shoes?color=black	Mittel — hängt vom Suchvolumen ab	Suchvolumen prüfen. Indexieren, wenn >100 monatliche Suchanfragen, sonst canonical auf Parent
Kategorie + 2+ Filter	/shoes?color=black&size=10	Niedrig — für die meisten Suchanfragen zu spezifisch	Canonical auf den einzelnen relevantesten Filter oder auf die Parent-Kategorie
Sortier-Variationen	/shoes?sort=price-asc	Keiner — niemand sucht nach „Schuhe sortiert nach Preis“	Mit robots.txt blockieren oder noindex
Paginierung tiefe Seiten	/shoes?page=47	Keiner — ab Seite 2-3 wird’s meist uninteressant	Noindex ab Seite 3-5, aber crawlbar lassen
Session-/Tracking-Parameter	/shoes?utm_source=email	Keiner	Mit robots.txt blockieren, auf Server-Ebene entfernen

So sieht die Implementierung des Canonical-Tags für Multi-Filter-Seiten aus:

<!-- On /shoes?color=black&size=10&sort=price -->
<link rel="canonical" href="https://example.com/shoes?color=black" />

<!-- On /shoes?sort=price -->
<link rel="canonical" href="https://example.com/shoes" />

<!-- On /shoes (the clean category page) -->
<link rel="canonical" href="https://example.com/shoes" />

Ein Fehler, den ich selbst gemacht habe und den wir noch nicht vollständig gelöst haben: Was tun mit facettierten Seiten, die sich Backlinks aufgebaut haben. Ein Kunde hatte tausende externe Links, die auf gefilterte URLs zeigten. Diese auf die Parent-Seite zu canonisieren, sollte Equity nach oben fließen lassen — klingt theoretisch gut.

In der Praxis haben wir nach der Canonical-Implementierung einen Rückgang von 15% in den Rankings der Parent-Seite gesehen. Ich weiß immer noch nicht, warum. Meine beste Vermutung: Die plötzliche Konsolidierung tausender Signale hat die Bewertung durch Google verwirrt — aber das ist Spekulation. Wir haben Canonicals auf den am stärksten verlinkten gefilterten Seiten zurückgerollt und sie indexierbar gelassen. Das ist ein Kompromiss, mit dem ich mich nicht richtig wohlfühle.

Paginierung: Die rel=next/prev-Frage

Kurzfassung: rel="next" und rel="prev" sind veraltet. Google hat 2019 bestätigt, dass es das Signal seit Jahren nicht mehr genutzt hat. Was macht man stattdessen?

Drei Optionen, sortiert nach meiner Präferenz:

Option 1: „Load more“ oder Infinite Scroll mit pushState. Das ist der sauberste Ansatz für neue Websites. Nutzer sehen eine URL. Google crawlt den gesamten Inhalt. Es gibt keine Paginierungs-URLs, die Crawl Budget verschwenden. Aber: Das braucht JavaScript — und das verursacht eigene Crawl-Budget-Kosten (mehr dazu unten).

Option 2: Klassische Paginierung mit noindex ab Seite 2+. Halten Sie die paginierten URLs crawlbar (damit Google Produkte/Artikel findet, die dort verlinkt sind), aber setzen Sie noindex, damit Google versucht, identische Template-Seiten nicht zu indexieren. Das Canonical auf jeder paginierten Seite sollte self-referenziert sein — canonischen Sie nicht alle Seiten auf Seite 1, denn der Content ist unterschiedlich.

Option 3: View-all-Seite. Wenn der paginierte Content insgesamt weniger als etwa ~200 Elemente hat, denken Sie über eine einzige View-all-Seite nach, die die paginierte Serie canonicalisiert. Google hat historisch View-all-Seiten bevorzugt. Der Nachteil: Ladezeit. Wenn Ihre View-all-Seite 8 Sekunden braucht, schadet das mehr als es hilft.

<!-- Page 2 of blog archive -->
<meta name="robots" content="noindex, follow">
<link rel="canonical" href="https://example.com/blog/page/2" />

<!-- Important: use "noindex, follow" — not "noindex, nofollow"
     You want Google to follow the links on paginated pages
     to discover the actual content pages -->

Achten Sie auf die follow-Direktive. Das ist entscheidend. Sie wollen die paginierte Seite nicht im Index, aber Sie wollen ganz sicher, dass Google die Links darauf verfolgt, um die echten Content-Seiten zu finden. Wenn Sie hier nofollow verwenden, würden Sie jeden Artikel oder jedes Produkt verwaisen, das nur ab Seite 2+ in Ihrem Archiv verlinkt ist.

JavaScript-Rendering und Crawl-Budget-Kosten

Dieser Abschnitt ist relevant für alle, die eine JavaScript-lastige Website betreiben (React, Vue, Angular, Next.js ohne korrektes SSR). Wenn Ihre Seite traditionell servergerendertes HTML liefert, springen Sie weiter.

Google crawlt in zwei Wellen. Erste Welle: Google lädt und verarbeitet das rohe HTML. Zweite Welle: Google rendert die Seite mit einem headless Chromium-Browser, um JavaScript auszuführen und den finalen Content zu sehen. Diese zweite Welle passiert später — manchmal erst Stunden später, manchmal erst nach Tagen.

Martin Splitt hat das in seinen JavaScript-SEO-Office-Hours ausführlich erklärt. Die Kernidee: Rendering ist für Google teuer. Es verbraucht mehr Ressourcen als ein einfacher HTML-Abruf. Google muss eine Chromium-Instanz starten, Ihr JavaScript ausführen, auf API-Calls warten, die sich auflösen, und danach das gerenderte DOM verarbeiten. Das bedeutet: Seiten, die von JavaScript abhängen, werden weniger effizient gecrawlt als servergerenderte Seiten.

Auswirkungen auf das Crawl Budget:

Zwei Requests pro Seite statt einem — der initiale HTML-Abruf und der Rendering-Pass
Verzögertes Indexing — Content, der hinter JavaScript steckt, kann Tage oder Wochen brauchen, bis er in der Suche erscheint
Ressourcenabrufe — Ihre JavaScript-Bundles, API-Endpunkte und Third-Party-Skripte zählen alles gegen Ihre Crawl-Rate
Rendering-Fehler — wenn Rendering fehlschlägt (Timeout, JS-Fehler, blockierte Ressourcen), indexiert Google nur das rohe HTML

Die Lösung: Server-side Rendering (SSR) oder Static Generation (SSG). Next.js, Nuxt, SvelteKit unterstützen das. Wenn Sie kein vollständiges SSR hinbekommen, nutzen Sie dynamic rendering: Sie liefern vorgerendertes HTML an Googlebot und die volle JS-Erfahrung für Nutzer. Google rät technisch davon ab, aber Stand Anfang 2026 funktioniert es in der Praxis. Wir haben die SPA-spezifischen Herausforderungen in unserem Guide zu SPA-SEO-Best Practices behandelt.

Logdatei-Analyse: Die Quelle der Wahrheit

Screaming Frog SEO Spider Dashboard zeigt gecrawlte URLs mit Statuscodes und Metadaten — Das Haupt-Dashboard von Screaming Frog SEO Spider listet jede gecrawlte URL mit Statuscodes, Content-Typen und Metadaten. Quelle: Semrush Blog

Worauf Sie in Ihren Logs achten sollten:

Welche URLs crawlt Googlebot am häufigsten? Wenn die Top-100 URLs, die am meisten gecrawlt werden, alles Parameter-Variationen oder paginierte Archive sind, dann ist das Crawl Waste.
Welche Response-Codes bekommt Googlebot? 301-Chains, 404-Spikes und 500-Fehler verschwenden Crawl Budget.
Wie oft crawlt Googlebot Ihre wichtigen Seiten? Wenn die Top-Produktseiten seit 3 Wochen nicht mehr gecrawlt wurden, aber Ihre /tag/-Seiten täglich gecrawlt werden, sendet Ihre Linkarchitektur die falschen Signale.
Wie groß ist die Zeitspanne zwischen dem ersten Besuch und dem zweiten Besuch auf neuen Seiten durch Googlebot? Das zeigt Ihnen, wie schnell Google neuen Content neu bewertet.

Tools: Screaming Frog Log Analyzer ist das beliebteste dedizierte Tool. Sie können Logs auch mit Kommandozeilen-Tools auswerten (grep nach Googlebot-User-Agent, dann per awk ausgeben). Für kontinuierliches Monitoring verarbeitet die Crawl-Analytics-Funktion von SEOJuice Server-Logs automatisch und markiert Crawl-Budget-Probleme.

Ein echtes Beispiel aus unseren Daten: Ein Kunde hatte eine WordPress-Seite mit rund 25.000 veröffentlichten Beiträgen. Guter Content, ordentlich Traffic. Aber ihre Server-Logs zeigten, dass Googlebot 40% seines Crawl-Budgets für /wp-json/-API-Endpunkte und /feed/-URLs ausgab. Das sind keine Seiten, nach denen jemand sucht. Zwei Zeilen in robots.txt haben diese 40% für echte Content-Seiten freigeräumt. Innerhalb von drei Wochen stieg die Crawl-Rate auf Artikelseiten um 60%, und es wurden 12 neue Seiten indexiert, die monatelang in der „Discovered — currently not indexed“-Hölle festhingen.

# WordPress-specific crawl budget savings
User-agent: *
Disallow: /wp-json/
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /author/*/feed/
Disallow: /category/*/feed/
Disallow: /tag/*/feed/
Disallow: /?replytocom=
Disallow: /trackback/

Internes Linking und Crawl Priority

Interne Links sind das stärkste Signal, das Sie kontrollieren können, um Google mitzuteilen, welche Seiten wichtig sind. Nicht Meta-Tags. Nicht Sitemap-Priority-Werte (die Google ohnehin ignoriert). Interne Links.

Jeder Link ist eine Stimme. Eine Seite, die von Ihrer Startseite, Ihrer Navigation und 50 weiteren Seiten verlinkt wird, wird häufiger gecrawlt als eine Seite, die nur von einer einzigen Archivseite drei Klicks tief verlinkt ist. Das ist grundlegende PageRank-Verteilung — und so entscheidet Googlebot, wo es sein Crawl Budget ausgibt.

Die praktische Konsequenz: Wenn Seiten nicht indexiert werden und 3+ Klicks von Ihrer Startseite entfernt sind, erhöhen zusätzliche interne Links von gut angebundenen Seiten ihre Crawl-Häufigkeit. Wir sehen das regelmäßig: Seiten, die von 0-1 internen Links auf 5+ kommen, bekommen ihren ersten Googlebot-Besuch innerhalb von 48 Stunden — selbst auf großen Websites, auf denen neue Seiten sonst typischerweise Wochen warten.

Deshalb haben wir automatisches internes Linking in SEOJuice eingebaut. Manuell interne Links über 10.000+ Seiten zu verwalten ist unmöglich. Aber der Crawl-Priority-Vorteil macht es zu einer der technisch besten Aktivitäten mit dem höchsten ROI.

Eine flache Architektur (jede Seite ist in 3 Klicks oder weniger erreichbar) ist besser für das Crawl Budget als tiefe Hierarchien. „Flach“ heißt aber nicht „alles mit allem verlinken“. Es bedeutet strategisches Linking — Topic Clusters, Hub-Seiten, kontextbezogene Links — sodass klare Crawl-Pfade zu Ihren wichtigsten Seiten entstehen.

So überwacht SEOJuice Crawl-Verhalten

Ich möchte konkret sein, was wir tatsächlich tun, statt vage Marketing-Sprache zu verwenden.

SEOJuice erfasst Crawl-Verhalten über drei Eingaben: GSC-Crawl-Stats (über die Search-Console-API), unsere eigenen Crawl-Daten (wir crawlen Kundenseiten, um das interne Link-Graf aufzubauen) und optional die Integration von Server-Logs.

Was wir aufbereiten:

Erkennung von Crawl Waste — URLs, die gecrawlt werden, obwohl sie das nicht sollten (Parameter-Seiten, umgeleitete URLs, Soft-404s), inkl. prozentualer Aufschlüsselung, wie viel Budget in nicht indexierbare URLs fließt.
Indexing-Velocity — Wie schnell neue und aktualisierte Seiten gefunden und aufgenommen werden. Wenn ein Blog-Post nach 7 Tagen nicht indexiert ist, markieren wir ihn mit einer vorgeschlagenen Maßnahme (meistens: mehr interne Links hinzufügen).
Analyse der Crawl-Tiefe — Seiten, die tiefer als Click Depth 4 vergraben sind, werden zur Prüfung markiert.
Monitoring der Server-Antwort — Antwortzeit-Tracking über Seiten hinweg. Wenn ein Bereich langsamer antwortet, taucht das auf, bevor es die Crawl-Rate beeinträchtigt.

Noch machen wir in der Produktoberfläche keine vollständige Logdatei-Analyse (beliebige Server-Logformate im großen Stil zu parsen ist eine Engineering-Aufgabe, die ich nicht zufriedenstellend gelöst habe). Aber GSC-Daten plus unser eigener Crawler liefern den meisten Websites genug, um Crawl-Budget-Probleme zu identifizieren und zu beheben — ohne eine Logdatei anfassen zu müssen.

Die Checkliste: Crawl-Budget-Optimierung in Prioritätsreihenfolge

Wenn Sie bis hierhin gelesen haben und feststellt haben, dass Sie wirklich ein Crawl-Budget-Problem haben, dann sind das die Fixes — in Reihenfolge der Wirkung:

Server-Antwortzeit beheben. TTFB unter 200ms bekommen. Allein das löst das Problem oft.
Sitemap bereinigen. Entfernen Sie jede URL, die nicht indexierbar ist. Richten Sie Ihre Sitemap an Ihrem tatsächlichen Index aus.
URL-Parameter behandeln. Blocken, canonicalisieren oder noindex setzen — je nach Facetten-Navigation-Framework weiter oben.
Redirect-Chains reparieren. Jede Redirect-Chain ist zwei verschwendete Crawl-Requests. Auf einzelne 301er flachziehen.
Crawl Waste in robots.txt blocken. Interne Suche, Feeds, API-Endpunkte, Admin-Seiten, Tracking-Parameter.
Interne Links zu Waisen-Seiten hinzufügen. Seiten ohne interne Links werden zuletzt gecrawlt. Das beheben.
Saubere Paginierungsbehandlung umsetzen. Noindex ab Seite 2+, follow-Direktiven beibehalten.
SSR für JavaScript-Content nutzen. Wenn Ihr Content vom JS-Rendering abhängt, liefern Sie HTML an Googlebot aus.
Kontinuierlich überwachen. Crawl Budget ist kein One-time-Fix. Neue Seiten, neue Parameter, neue Redirects — das Problem entsteht wieder, wenn man es nicht überwacht.

Schritt 1–3 lösen das Problem für die Mehrheit der Websites, die tatsächlich Crawl-Budget-Optimierung brauchen. Schritt 4–9 ist für den Rest — Websites mit komplexen Architekturen, bei denen die Basics nicht reichen.

Häufig gestellte Fragen

Beeinflusst Crawl Budget meine Rankings direkt?

Nein. Crawl Budget entscheidet nur darüber, ob Ihre Seiten gecrawlt und indexiert werden — nicht darüber, wie sie ranken, sobald sie indexiert sind. Aber eine Seite, die nie gecrawlt wird, wird nie indexiert, und eine Seite, die nie indexiert wird, kann nicht ranken. Crawl Budget ist also Voraussetzung, kein Ranking-Faktor. Wenn Sie es optimieren, verbessern Sie keine Rankings für bereits indexierte Seiten — Sie helfen Seiten, die aktuell gar nicht erst indexiert werden.

Sollte ich in Google Search Console ein Crawl-Rate-Limit festlegen?

Fast nie. Die Crawl-Rate-Einstellungen in GSC erlauben es, die Crawl-Rate von Googlebot zu reduzieren, nicht zu erhöhen. Der einzige Grund, das zu nutzen, ist, wenn Googlebot Ihren Server buchstäblich überfordert. Wenn Ihr Server die Last bewältigen kann: einfach lassen. Ich habe gesehen, wie Leute die Rate reduzieren in der Annahme, Google würde sich dann stärker auf wichtige Seiten „fokussieren“. So funktioniert das nicht — Google crawlt einfach weniger von allem.

Wie oft recrawlt Google Seiten?

Beliebte, häufig aktualisierte Seiten: mehrmals pro Tag. Statische Seiten, die sich über Monate nicht ändern: alle paar Wochen. Der Durchschnitt liegt grob bei jeder 1–2 Wochen pro Seite, aber das variiert massiv. News-Websites werden innerhalb von Minuten gecrawlt. Eine selten aktualisierte „Über uns“-Seite könnte einen Monat zwischen Besuchen haben. Das <lastmod>-Tag kann Hinweise geben, dass sich eine Seite geändert hat — aber nur, wenn Sie es korrekt einsetzen: Google ignoriert es, wenn es immer auf das Datum von heute gesetzt ist.

Kann ich mein Crawl Budget erhöhen?

Sie können Ihr Crawl-Rate-Limit erhöhen (schnellere Server) und Crawl Waste reduzieren (damit mehr Budget in wichtige Seiten fließt). Aber Sie können Google nicht direkt sagen, dass es Sie stärker crawlen soll. Die Crawl-Nachfrage entscheidet Google basierend auf dem wahrgenommenen Content-Wert. Der beste indirekte Weg: häufig veröffentlichen, Backlinks aufbauen, Content wirklich nützlich machen. Websites mit hohem Wert werden aggressiver — und automatisch — gecrawlt.

Verschwenden noindex-Seiten Crawl Budget?

Ja. Google crawlt die Seite trotzdem, um den noindex-Tag zu sehen. 100.000 noindexed Seiten bedeuten 100.000 Crawl-Budget-Treffer (wenn auch seltener als bei indexierten Seiten). Wenn diese Seiten wirklich nie indexiert werden müssen, ist robots.txt crawl-effizienter — aber robots.txt blockiert, sodass Google nichts auf der Seite sieht, inklusive Links. Nutzen Sie noindex+follow, wenn Sie Link Discovery möchten, aber keine Indexierung. Nutzen Sie robots.txt, wenn Sie nicht möchten, dass die Seite überhaupt gecrawlt wird.

Weiterführende Literatur: Technisches SEO im SEOJuice-Blog

Dieser Artikel ist Teil unserer technischen SEO-Serie. Wenn Sie gerade Crawl-Budget-Themen aufarbeiten, helfen Ihnen diese verknüpften Guides:

Post-Launch SEO Checklist — Der komplette Guide Stunde für Stunde, Woche für Woche, um live zu gehen, ohne Traffic zu verlieren. Deckt robots.txt-Setup, Sitemap-Submission und frühes Crawl-Monitoring ab.
SPA SEO Best Practices — Wenn JavaScript-Rendering Ihr Crawl Budget auffrisst, geht dieser Guide im Detail auf SSR, dynamic rendering und das Zwei-Wellen-Crawl-Problem ein.
Common On-Page SEO Mistakes — Viele Crawl-Budget-Probleme kommen aus On-Page-Themen: falsche Canonicals, fehlende meta robots-Tags und Muster für Duplicate Content.
Content Silos for SEO — So strukturieren Sie Ihr internes Linking, um klare Crawl-Pfade zu schaffen und die Crawl-Priority für Ihre wichtigsten Seiten zu verbessern.
Internal Linking Strategy — Der direkte Zusammenhang zwischen internen Links und Crawl Priority — plus echte Daten dazu, wie die Link-Anzahl die Geschwindigkeit der Indexierung beeinflusst.

Wenn Sie ein großes Projekt betreiben und automatisiertes Crawl-Budget-Monitoring wollen, SEOJuice verfolgt Crawl Waste, Indexing-Velocity und Server-Antwortzeit für alle Ihre Seiten. Es ersetzt keine Logdatei-Analyse für komplexe Architekturen, aber es zeigt den Großteil der Crawl-Budget-Probleme, die wirklich zählen — durchgehend, nicht nur dann, wenn sich jemand erinnert, mal ein Audit zu fahren. Jetzt eine kostenlose Testphase starten und sehen Sie innerhalb weniger Minuten, wohin Ihr Crawl Budget geht.

Features

Start boosting your SEO today

Resources

Educate yourself