Generative Engine Optimization Intermediate

Thermische Kohärenzbewertung

Eine Kennzahl zur Prompt-Stabilität zum Testen, ob Ausgaben mit höherer Temperatur dieselben Fakten, Entitäten und Intentionen beibehalten.

Updated Apr 04, 2026

Quick Definition

Der Thermal Coherence Score misst, wie stabil die Antwort eines LLM bleibt, wenn die Temperatur geändert wird. Bei GEO ist das entscheidend, weil Prompts, die im Bereich von 0,7 bis 0,9 einbrechen, zu inkonsistenten Fakten, schwacher Markensteuerung und zu Inhalten führen, die sich nicht sicher skalieren lassen.

Thermal Coherence Score (TCS) ist eine Kennzahl zur Prompt-Qualität, die prüft, ob ein LLM die Kernaussage beibehält, wenn man die Sampling-Temperatur erhöht oder senkt. In der Praxis hilft es GEO-Teams, Prompts zu unterscheiden, die robust sind, von Prompts, die nur bei Temperatur 0,1 gut aussehen.

Die Idee ist sinnvoll. Der Begriff ist jedoch nicht etabliert. Sie werden TCS nicht in der Google Search Console, in Ahrefs, Semrush, Moz, Screaming Frog oder Surfer SEO finden, und Google hat es nicht als Ranking- oder Qualitätskennzahl veröffentlicht. Behandeln Sie es als internes QA-Rating, nicht als Branchenbenchmark.

So berechnen Teams ihn

Die übliche Konfiguration ist einfach: führen Sie denselben Prompt mit mehreren Temperaturen aus, meist 0,1, 0,5 und 0,9, und vergleichen Sie anschließend die Ausgaben auf semantische Konsistenz. Die meisten Teams nutzen Embeddings plus Cosine Similarity und ergänzen dann zusätzliche Gewichtungen für Fakten, die wirklich zählen: Produktnamen, Preise, Daten, rechtliche Aussagen, Standorte und markenbezogene Fachterminologie.

  • Varianten generieren: Gleiches System-Prompt, gleicher User-Prompt, unterschiedliche Temperaturen.
  • Ausgaben vergleichen: Verwenden Sie OpenAI- oder Cohere-Embeddings oder ein eigenes Modell, um die Ähnlichkeit zu bewerten.
  • Kritische Fakten höher gewichten: Genannte Entitäten und Behauptungen im exakten Wortlaut sollten stärker zählen als rein stilistische Formulierungen.
  • Sanktionen anwenden: Halluzinierte Entitäten, vertauschte Zahlen und fehlende Einschränkungen sollten den Score deutlich reduzieren.

Ein pragmatischer Schwellenwert: unter 0,75 muss der Prompt in der Regel überarbeitet werden. Über 0,85 ist er oft stabil genug für skalierten Produktionsbetrieb. Die Schwellenwerte variieren jedoch je nach Risiko. Ein Reiseblog kann mehr Drift tolerieren als ein Healthcare-Erklärtext oder eine Seite zum APR-Vergleich.

Warum TCS für GEO wichtig ist

Generative Engine Optimization geht nicht nur darum, von KI-Systemen zitiert zu werden. Es geht auch darum, Quellinhalte und Prompt-Frameworks zu erstellen, die über Modell-Settings und Modell-Updates hinweg konsistent bleiben. TCS gibt Teams eine Möglichkeit, das zu testen, bevor schlechte Ausgaben in die Produktion gelangen.

Besonders nützlich ist TCS für:

  • Template-gesteuerte Inhalte: FAQs, Produktzusammenfassungen, Vergleichsseiten und lokale Landingpages.
  • Regulierte Branchen: Finanzen, Gesundheit, Recht, Versicherungen.
  • Lokalisierungs-Workflows: Wenn schon kleine faktische Abweichungen zu einem Compliance- oder Vertrauensproblem werden.
  • Prompt-A/B-Tests: Vergleich von Prompt-Versionen mit Zahlen statt mit subjektiver manueller Bewertung.

Eine ehrliche Einschränkung: Hohe Kohärenz bedeutet nicht hohe Genauigkeit. Ein Modell kann eine falsche Behauptung bei jeder Temperatur wiederholen und trotzdem gut abschneiden. TCS misst Stabilität, nicht Wahrheit. Sie brauchen weiterhin eine Faktenvalidierung anhand von Quellunterlagen, Produktfeeds oder einer Wissensdatenbank.

So nutzen Sie es in der Praxis

Halten Sie die Systemnachricht konstant. Ändern Sie immer nur eine Prompt-Variable auf einmal. Protokollieren Sie die Ausgaben nach Modellversion, denn ein Prompt, der in einem Release einen Score von 0,88 erzielt, kann nach einem API-Update auf 0,71 fallen. Nächtliche Regressionstests helfen.

Verwechseln Sie außerdem nicht semantische Ähnlichkeit mit Nutzwert. Zwei Ausgaben können sich stark ähneln und dennoch gleich unbefriedigend sein. Kombinieren Sie TCS mit redaktioneller Prüfung, Checks zur Entitätenextraktion und nachgelagerten Performance-Daten aus der GSC. Wenn Seiten, die aus „stabilen“ Prompts gebaut wurden, trotzdem Klicks verlieren oder nicht belegte Aussagen produzieren, löst der Score nicht Ihr eigentliches Problem.

Fazit: TCS ist eine solide interne Kennzahl für die Robustheit von Prompts. Sie sollten nur nicht so tun, als wäre es ein universelles GEO-KPI. Es ist eine QA-Schicht, kein Ranking-Faktor.

Frequently Asked Questions

Ist der Thermal Coherence Score eine offizielle SEO- oder Google-Kennzahl?
Nein. Dabei handelt es sich um ein internes Bewertungskonzept, nicht um eine Kennzahl in der Google Search Console oder um ein Signal, das Google dokumentiert hat. Verwende es für Prompt-Quality-Assurance (QA), aber nicht, um SEO-Performance an Stakeholder zu berichten, als wäre es eine standardisierte Metrik.
Was ist ein guter Thermischer Kohärenz-Score?
Für viele Teams ist 0,85+ ein solides Ziel für Produktions-Prompts, während alles unter 0,75 in der Regel überarbeitet werden muss. In regulierten Branchen kann selbst 0,90 zu niedrig sein, wenn das Modell Zahlen, Dosierungsformulierungen oder rechtliche Qualifizierungen weiterhin verändern kann.
Wie unterscheidet sich TCS von der faktischen Genauigkeit?
TCS misst die Konsistenz über verschiedene Temperaturen hinweg – nicht, ob der Inhalt wahr ist. Ein Prompt kann dieselbe falsche Aussage bei 0,1, 0,5 und 0,9 erzeugen und dennoch eine hohe Punktzahl erreichen.
Welche Tools nutzen SEO-Teams zusätzlich zu TCS?
Der TCS selbst wird in der Regel in individuellen Workflows berechnet, aber Teams koppeln ihn für die Performance-Validierung mit GSC und mit Ahrefs oder Semrush für die Themen- und SERP-Analyse. Screaming Frog unterstützt dabei, die veröffentlichte Ausgabe nach dem Go-Live im großen Maßstab zu prüfen.
Sollten Sie nur zwei Temperatureinstellungen testen?
Meistens nein. Zwei Punkte können eine nichtlineare Verschlechterung übersehen: Ein Prompt wirkt bei 0,1 und 0,5 stabil, bricht aber bei 0,8 oder 0,9 deutlich ein. Ein Drei-Punkte-Test ist eine bessere Basis.
Kann TCS bei mehrsprachigen GEO-Workflows helfen?
Ja, insbesondere wenn Sie stilistische Flexibilität benötigen, ohne dabei Zusagen, Produktspezifikationen oder Formulierungen zur Compliance zu verändern. Aber mehrsprachiges Scoring ist unübersichtlich, weil semantische Ähnlichkeitsmodelle Übersetzungen, die den Ton beibehalten, jedoch kritische Qualifizierungen weglassen, zu stark bewerten können.

Self-Check

Messen wir die Prompt-Stabilität oder tun wir so, als würde Stabilität gleichbedeutend mit faktischer Richtigkeit sein?

Haben wir die Fakten gewichtet, die wirklich zählen – etwa Preise, Daten, rechtliche Ansprüche und Markennamen?

Protokollieren wir TCS nach Modellversion, damit Regressionen nach API-Updates sichtbar sind?

Produzieren hoch-TCS-Prompts auch Inhalte, die in der Google Search Console (GSC) gut abschneiden und eine Prüfung durch Menschen bestehen?

Common Mistakes

❌ Nur auf semantische Ähnlichkeit zu setzen und dabei nicht zu bestrafen, wenn Zahlen, Entitäten oder Formulierungen zur Compliance ausgetauscht wurden.

❌ Ein hoher TCS gilt als Hinweis darauf, dass die Ausgabe korrekt, veröffentlichungsreif oder nützlich ist.

❌ Nur ein Modell-Release testen und nach Updates des Anbieters eine fehlende Prompt-„Degradation“ (Qualitätsverlust) nicht erkennen.

❌ Auf die gleiche Schwellenwertregelung sollte sowohl für Low-Risk-Bloginhalte als auch für Finance- oder Healthcare-Inhalte mit hohem Risiko angewendet werden.

All Keywords

Thermischer Kohärenzscore Generative-Engine-Optimierung GEO-Kennzahlen LLM-Prompt-Stabilität Sampling-Temperatur Prompt-Robustheit Halluzinationsdetektion Semantische Ähnlichkeitsbewertung KI-Content-QA Temperaturtests für Prompts LLM-Bewertungsmetrik Prompt-Regressionstests

Ready to Implement Thermische Kohärenzbewertung?

Get expert SEO insights and automated optimizations with our platform.

Get Started Free