Aktualisiert im April 2026
TL;DR:
Lass mich ausholen. Die meisten KI-Audits scheitern nicht wegen Messfehlern, sondern wegen falscher Erwartungen. Ein Founder führt das Audit durch in der Hoffnung, es erkläre den Rückgang des organischen Umsatzes. Tut es nicht. Es zeigt lediglich, ob deine Marke erscheint, wenn ein KI-Assistent eine kategoriedefinierende Frage beantworten soll, und an welcher Position du in der Zitier-Rangliste stehst. Das war’s.
Die meisten Teams, mit denen ich gesprochen habe, machen kein zweites Audit. Entweder brachte das erste nichts Verwertbares, oder der Rhythmus ging im Tagesgeschäft unter. Sie führen 30 Prompts einmal aus, sehen eine einzige Zahl („wir tauchen in 23 % der Antworten auf“) und wissen nicht, was sie damit anfangen sollen. Waren 23 % gut? Waren Perplexity und ChatGPT sich einig? Keine Ahnung — ein Einmal-Audit ist die falsche Analyseeinheit.
Tim Soulo (CMO bei Ahrefs) brachte es in seinem Round-up vom Februar 2026 auf den Punkt: KI-Sichtbarkeitstracking befinde sich „noch ganz am Anfang“ und Marken, die jetzt Prozesse darum aufbauen, hätten ein First-Mover-Fenster. Stimmt, aber ich ergänze die unglamouröse Version: Die Methodik wackelt ebenfalls noch. Wer eine Zahl will, die er im Board-Meeting verteidigen kann, muss wissen, was das Audit belegen kann und was nicht.
Was es beantwortet: ob du in KI-Antworten zu Kategoriefagen auftauchst, wie oft im Vergleich zu Wettbewerbern, wo (Erstnennung, mitten in der Liste, Fußnote), das Sentiment und welche Engines dich gut bzw. schlecht behandeln. Was es nicht beantwortet: Umsatzkausalität, Share of Attention vs. Share of Citation, Churn-Risiko oder ob KI-Search 2027 fünf oder fünfzig Prozent deines Funnels ausmacht. Wer dir ein Tool verkauft, das das verspricht, verkauft dir eine Prognose als Messung.
Fünf Spalten. Wenn dein Audit nur diese erfasst, bist du zu 90 % fertig.
| Metrik | Formel | Aussage |
|---|---|---|
| Citation Rate | (Prompts mit Markenerwähnung / Prompts gesamt) × 100 | Grundsichtbarkeit. Die „Kennen sie uns überhaupt?“-Zahl. |
| Share of Model | (Deine Erwähnungen / Summe aller Markenerwähnungen im Antwort-Set) × 100 | Wettbewerbsposition. Dein Kuchenstück, wenn der Kuchen „alle vom Modell genannten Marken“ ist. |
| Prominence Score | Gewichtet: Erstnennung = 3, gelistet = 2, erwähnt = 1; Durchschnitt über alle Auftritte | Qualität der Erwähnung. Platz 3 in einer Liste von sieben ist nicht dasselbe wie die Headline-Antwort. |
| Sentiment Polarity | +1 (positiv) / 0 (neutral) / -1 (negativ), gemittelt | Wie das Modell dich rahmt, wenn es dich zitiert. |
| Citation Source URL | Die URL, auf die sich das Modell bezieht (falls angegeben) | Welche deiner (oder fremder) Seiten das Modell speist. |
Ein Wort zu Sentiment-Benchmarks. Spotlights Analyse von 1,8 Mio. KI-Antworten (Feb 2026) ergab: 80,6 % der Erwähnungen sind neutral, 18,4 % positiv, nur 1 % negativ. Ganz anders als bei Produkt-Reviews, wo Negativität deutlich höher ausfällt. Implikation: Liegt deine Sentiment-Polarity bei etwa +0,18, bewegst du dich im Plattform-Median. Viele geraten bei neutralen Erwähnungen in Panik. Sollten sie nicht. Neutral ist baseline.
Citation Source URL ist die Kennzahl, die die meisten Teams überspringen und meiner Meinung nach die mit dem größten Hebel. Zitiert das Modell einen Reddit-Thread statt deiner Startseite, ist das ein Retrieval-Signal, das du reparieren kannst. Zitiert es die Vergleichsseite eines Mitbewerbers, auf der du schlecht wegkommst, ist das eine Content-Lücke. Die Zahl sagt dir Sichtbarkeit; die URL sagt dir das Warum.
Die meisten Audit-Guides winken diesen Schritt durch. „Bau 30 Prompts.“ Cool. Welche 30? In welchem Verhältnis? Wie formuliert?
Das Setup, das funktioniert, sind 10 Informations-, 10 Vergleichs- und 10 High-Intent-Prompts. Unter 20 Prompts ist es statistisches Rauschen; über 60 sinkt der Grenznutzen. Dreißig ist der Sweet Spot.
Ein anonymisiertes Beispiel für einen B2B-SaaS-Anbieter für transaktionale E-Mails (echte Kategorie, letztes Monat auditiert):
Tonfall zählt. Schreib Prompts so, wie echte Nutzer sie eintippen, nicht wie ein SEO eine Keyword-Phrase bastelt. „Transactional email API alternatives 2026 best“ ist Keyword-Salat. Kein Mensch tippt das. KI-Assistenten basieren auf Trainingsdaten von Menschen, also müssen deine Prompts echte Nutzersprache abbilden. (Side Note: Ich pflege ein Google-Doc mit Prompts direkt aus Support-Tickets. Beste Quelle dafür, was Nutzer wirklich fragen.)
Vier Pflichtkandidaten: ChatGPT, Perplexity, Google AI Mode (plus AI Overviews) und Gemini. Das deckt 2026 den Großteil der öffentlichen Nutzungsfläche ab.
| Engine | Ausführen? | Warum |
|---|---|---|
| ChatGPT | Immer | Größte Consumer-Fläche; „Frozen Brand List“-Effekt macht das Knacken am schwersten |
| Perplexity | Immer | Frischer Retrieval-Lauf pro Query; bringt Nischenmarken nach oben; schmeichelhafte Zahlen, aber gute Diagnostik |
| Google AI Mode + Overviews | Immer | Nächstliegend zu klassischen Google-Rankings; größtes Risiko für Substitution von Organic-Traffic |
| Gemini | Immer | Wichtig für Marken, deren Käufer in Workspace leben |
| Claude | Nur Enterprise | Kleine Consumer-Fläche; rauscht, außer du verkaufst an Claude-for-Business-Orgs |
| Grok / DeepSeek | Standardmäßig skippen | Zielgruppen-spezifisch; nur testen, wenn du mehr als „Trend“ als Begründung hast |
Ein Satz, den ich Kunden ständig sage: In Audits mit dem AI Visibility Checker melden Teams am häufigsten, dass ihre Perplexity-Citation-Rate um ein Mehrfaches besser ist als ihre ChatGPT-Rate — selbst wenn ihre ChatGPT-Rank-Dashboards anderes zeigen. Der Fehler: ChatGPT als Stellvertreter für alle KI-Suchen zu sehen. Ist es nicht. Perplexity zeigt Nischenmarken deutlich aggressiver, weil es pro Query frische Webinhalte zieht, während ChatGPTs Trainings-Cut einen „Frozen Brand List“-Effekt für alles außerhalb der Top 20 erzeugt.
Wenn du in Woche 1 nur Zeit für eine Engine hast, nimm Perplexity. Dort siehst du deine schmeichelhaftesten Zahlen — klingt schlecht, ist aber nützlich: Du erkennst, ob der Retrieval-Pfad dich überhaupt findet.
Das ist der Abschnitt, den ich fett drucken würde, wenn ich nur einen behalten dürfte.
Rand Fishkin und Patrick O'Donnell führten Anfang 2026 ein Experiment durch: dieselben 12 Prompts, 2.961 Läufe über große KI-Assistenten. Das Ergebnis (veröffentlicht bei SparkToro): Die Wahrscheinlichkeit, zweimal exakt dieselbe geordnete Markenliste zu erhalten, lag unter 1 : 1.000. Unter 1 : 1.000. Gleicher Prompt, gleiches Modell, Minuten auseinander.
Wenn du einen Prompt einmal ausführst und notierst, was du siehst, hast du deine Sichtbarkeit nicht gemessen. Du hast einen Monte-Carlo-Zufall aus einer Verteilung gezogen, die du noch nicht verstanden hast. Das Audit, das du daraufhin veröffentlichst, ist falsch, weil du zu früh aufgehört hast zu sampeln.
Die Lösung ist N = 5 mindestens. Fünf Durchläufe pro Prompt, an unterschiedlichen Tagen, frische Sessions, Cookies gelöscht. (Ich würde gern N = 10 empfehlen, aber die meisten Teams machen das nicht, und N = 5 stabilisiert die Haupt-Metriken auf ~10 % relativen Fehler, nach meiner Erfahrung.) Gesamt: 30 × 5 × 4 = 600 Datenpunkte. Klingt viel. Mit Checkliste und Tabelle sind es etwa vier Stunden.
Sessions an verschiedenen Tagen laufen lassen, nicht nur Stunden auseinander. Modelle cachen aggressiv auf der Inferenz-Ebene. Zwei Läufe mit 10 Minuten Abstand können identische Antworten liefern, weil der Cache zieht, nicht weil die Verteilung so ist. Tageabstand sampelt fairer.
Die operativen Details sind der Punkt, an dem alle anderen Guides weglassen. Hier die echte Sequenz.
Pre-Flight (15 Min). Öffne vier Inkognito-Tabs: ChatGPT, Perplexity, Google mit AI Mode, Gemini. Angemeldetes ChatGPT erinnert sich daran, dass du deine eigene Marke 40-mal gefragt hast, und bevorzugt dich auf eine Weise, wie es der Durchschnittsnutzer nicht erlebt. Also Inkognito für alles.
Spreadsheet-Schema. Neun Spalten: prompt_id (P01-P30), prompt_text, tier, engine, run_number (1-5), brand_appeared (1/0), position (Integer oder null), sentiment (+1/0/-1), cited_url. Nicht fancy werden. Gefüllte Zeilen sehen so aus:
| prompt_id | tier | engine | run | appeared | position | sentiment | cited_url |
|---|---|---|---|---|---|---|---|
| P03 | informational | Perplexity | 1 | 1 | 2 | 0 | acme.com/guide |
| P03 | informational | ChatGPT | 1 | 0 | — | — | — |
| P11 | comparison | Perplexity | 2 | 1 | 1 | +1 | reddit.com/r/saas/... |
| P11 | comparison | Google AI Mode | 2 | 1 | 4 | 0 | g2.com/categories/... |
| P24 | high-intent | Gemini | 3 | 1 | 3 | -1 | competitor.com/vs-acme |
Execution-Loop. Für jeden Prompt zuerst Engine 1 laufen lassen, Antwort kopieren, Zeile ausfüllen, zu Engine 2 wechseln. Mach alle vier Engines für Prompt 1, bevor du zu Prompt 2 gehst. Cross-Engine-Vergleich ist die wichtigste Erkenntnis; clustern, nicht streuen.
Sentiment codieren. +1, wenn die Antwort dich empfiehlt oder unter „die besten“ listet. 0, wenn sie dich nur nennt. -1, wenn sie dich schlechter darstellt oder abrät. Die meisten Zeilen werden 0 sein. Das ist normal (nicht bei neutralen Erwähnungen überreagieren).
Positions-Regeln. Position 1 ist die erste genannte Marke im Antworttext. Stehst du als Item 4 in einem „Top-10“-Listing, ist Position 4. Zwei-mal genannt? Die bessere Position zählt. Citation URL: Perplexity gibt sie direkt an; ChatGPT nur, wenn Browsing genutzt wurde; Google AI Mode zeigt Source-Cards; Gemini variiert. Nur aufnehmen, wenn vorhanden. Nicht raten.
Vier Stunden End-to-End für ein 30 × 5 × 4-Audit. Ich habe die Stoppuhr laufen lassen. Die erste Stunde ist am langsamsten, während du dein Sentiment-Gefühl kalibrierst; ab Lauf 3 ist es mechanisch.
Zahlen zu einer fiktiven Marke, Acme Analytics (Acme ist erfunden; die Struktur entspricht realen Audits).
Citation Rate. In 30 × 5 × 4 = 600 Messungen tauchte die Marke 138-mal auf. Citation Rate = 23 %. Für eine B2B-SaaS in einer kompetitiven Kategorie sind 15-30 % typisch fürs erste Audit.
Share of Model. In 138 Antworten wurden durchschnittlich 7 Marken genannt. Insgesamt 966 Marken-Erwähnungen. Share of Model = 138 / 966 = 14,3 %. Wenn das Modell Acme nennt, ist Acme eine von sieben Marken.
Prominence Score. 21 Erstnennungen (×3), 67 gelistet (×2), 50 erwähnt (×1). Gewichtete Summe 247, geteilt durch 138 = 1,79. Eher „mittig gelistet“ als „Headline-Antwort“. Hier steckt meist das größte Optimierungspotenzial. Früher habe ich nur Erstnennungen 3× gewichtet. Die Teams, die ihre Sichtbarkeit wirklich bewegt haben, tracken auch die nachfolgenden Positionen — Erstnennungen können Paid-Co-Marketing sein, konstante Positionen 2-4 sind echter Trust.
Sentiment Polarity. +25 – 4 = +21 über alle Auftritte. Ø = +0,15. Leicht positiv, knapp unter dem Plattform-Median von +0,18 (Spotlight 2026). Nicht schlecht, nicht brillant.
Wenn du unbedingt eine Ein-Zahl-Metrik willst, multipliziere Citation Rate mit Sentiment-Weighted Visibility. Acme: 23 % × (1 + 0,15) = 26,5. Es gibt noch keinen Industrie-Benchmark für diesen Composite; die Methode ist sechs Monate alt. Dein Trend Audit-zu-Audit ist aussagekräftiger als jede absolute Schwelle.
Zahlen ohne Diagnose sind Eitelkeit. Mein Triage-Framework teilt Lücken in drei Buckets, jede hat einen anderen Fix und eine andere Dauer.
Foundational Gap. Fehlst du plattformübergreifend bei Informations-Prompts, hat das Modell dich als kategorierelvanten Entity nicht gelernt. Symptom: Citation Rate nahe Null in Tier 1, vereinzelte Treffer in Tier 3 nur, wenn dein Markenname im Prompt steht. Fix: Off-Site-Authority — Digital-PR in Publikationen, die das Modell crawlt, Wikipedia-Eintrag, Reddit-Threads in aktiven Subreddits. 60-90 Tage-Programm. Unser Multisource-SEO-Guide enthält das komplette Off-Site-Playbook.
Platform-Specific Gap. Präsenz in Perplexity, Fehlen in ChatGPT (oder umgekehrt). Das Modell kennt dich, der Retrieval-Layer findet dich nicht zuverlässig. Symptom: 5× Unterschied in der Citation Rate zwischen Engines. Fix: Retrieval-Signale reparieren — Schema-Markup (Organization, Product, FAQ), llms.txt, serverseitiges Rendering, damit Non-JS-Crawler (GPTBot, PerplexityBot) deine Seiten lesen können. Das AI-Crawler-Playbook deckt die Zugriffs-Fixes ab.
Prominence Gap. Du wirst genannt, aber immer auf Position 4-7. Das Modell weiß, dass du relevant bist, sieht dich aber nicht als Headliner. Fix: Vergleichs-Content und Erstnennungs-Positionierung. Veröffentliche „X vs. Du“-Seiten, auf denen du den Frame kontrollierst. Baue die kanonische „Beste [Kategorie]-Tools“-Liste auf deiner Domain (inklusive ehrlicher Konkurrenz). 30-60 Tage-Fix; die häufigste Lücke.
Behandle die drei Gaps nicht gleich. Foundational-Gaps löst kein Schema. Platform-Gaps löst keine PR. Erst triagieren, dann reparieren.
Einmal ist ein Snapshot. Zweimal ist ein Trend. Fünfmal ist ein Prozess. Die Kadenz, die ich mit Kunden und bei SEOJuice selbst fahre:
Die Bedeutung einer Kategorie driftet in KI-Trainingsdaten schneller als man denkt. „AI SEO Tool“ bedeutete 2024 etwas anderes als 2026. Ist deine Prompt-Bank sechs Monate alt und du aktualisierst nur die Läufe, misst du gegen ein veraltetes Kategorien-Konzept. Der quartalsweise Neubau ist nicht verhandelbar.
Tracke Audit-zu-Audit-Deltas, nicht absolute Zahlen. „Unsere Citation Rate stieg von 23 % auf 28 % im Q1“ ist ein Signal. „Unsere Citation Rate ist 23 %“ sagt isoliert nichts, weil es noch keinen soliden Branchen-Benchmark gibt. Dein früheres Selbst ist der Benchmark.
Die Grenzen sind ebenso wichtig wie die Methodik. Wenn ich dir das Audit verkaufe und du die Limits später entdeckst, fühlst du dich betrogen. Also in Klartext:
Wenn dir das manuelle Audit zu viel Aufwand ist, automatisiert der AI Visibility Checker die Prompt-Runs, das Varianz-Sampling und die Scorecard — mit exakt der hier beschriebenen Methodik. Der Punkt dieses Artikels ist die Methodik, nicht das Tool. Willst du’s in der Tabelle machen, funktioniert die Tabelle.
Monatlich das volle 30-Prompt-Set, wöchentlich die Top-5-Prompts. Quartalsweise die Prompt-Bank komplett neu bauen, weil Nutzersuche und Kategorien-Sprache schneller driften als die Läufe es zeigen.
Nein. Eine Tabelle, vier Browser-Tabs (ChatGPT, Perplexity, Google AI Mode, Gemini) und vier Stunden fokussierte Arbeit liefern ein brauchbares Audit. Tools sparen Zeit beim Sampling und Scoring, aber die Methodik bleibt gleich.
Es gibt noch keinen Branchen-Benchmark. Für B2B-SaaS in mittelkompetitiven Kategorien sind 15-30 % typisch fürs erste Audit. Der Trend zählt mehr als der Absolutwert. Wenn du von 18 % auf 26 % in einem Quartal gestiegen bist, gewinnst du.
Perplexity holt pro Query frische Daten und zeigt neuere oder kleinere Marken leichter. ChatGPT stützt sich stärker auf Trainingszeit-Signale — das erzeugt den „Frozen Brand List“-Effekt für alles außerhalb der Top 20. Das ist ein platform-specific Gap; der Fix sind Retrieval-Signale (Schema, llms.txt, serverseitiges Rendering), nicht mehr PR.
Ein klassisches SEO-Audit misst, wie gut Suchmaschinen deine Seiten crawlen, rendern und ranken. Ein KI-Audit misst, ob LLM-Assistenten deine Marke nennen, wenn sie Kategorie-Fragen beantworten. Andere Signale, andere Metriken, andere Probleme. Du brauchst beides. Der Shift von SEO zu GEO erklärt den konzeptionellen Unterschied.
Weiterführende Artikel:
Wenn du die Tabelle überspringen willst, probier den AI Visibility Checker. Gleiche Methodik, gleiche Metriken, automatisiert.
no credit card required