Aggiornato ad aprile 2026
In sintesi:
Facciamo un passo indietro. La maggior parte degli audit fallisce non per errori di misurazione ma per aspettative sbagliate. Un founder spera che l’audit spieghi perché il traffico organico è calato. Non lo farà. Dirà solo se il tuo brand compare quando un assistente AI riceve una domanda chiave di categoria e in quale posizione di citazione. Fine.
Molti team non eseguono un secondo audit. Il primo non produce insight azionabili oppure la cadenza salta per altre priorità. Eseguono 30 prompt una sola volta, vedono un numero (“compariamo nel 23 % delle risposte”) e non sanno che farne. È buono il 23 %? Perplexity e ChatGPT concordano? Non lo sanno: un audit one-shot è l’unità di analisi sbagliata.
Tim Soulo (CMO di Ahrefs) lo ha riassunto bene nel suo roundup di febbraio 2026: il monitoraggio della visibilità AI “è ancora alle primissime fasi” e chi costruisce processi ora ha una finestra da first mover. Giusto, ma aggiungo la versione meno glamour: la metodologia è ancora instabile. Se vuoi un numero difendibile in board meeting, devi sapere cosa l’audit può o non può dimostrare.
Cosa risponde: se sei citato nelle risposte AI per query di categoria, con quale frequenza rispetto ai competitor, dove (prima menzione, metà lista, nota a piè di pagina), il sentiment e quali motori ti trattano bene o male. Cosa non risponde: causazione dei ricavi, share of attention vs share of citation, rischio churn o se la ricerca AI sarà il 5 % o il 50 % del funnel nel 2027. Chiunque venda uno strumento che pretende di rispondere a queste domande sta vendendo previsioni mascherate da misurazioni.
Cinque colonne. Se il tuo audit rileva solo queste, sei al 90 % del lavoro.
| Metrica | Formula | Indicazione |
|---|---|---|
| Citation Rate | (Prompt in cui appare il brand / Prompt totali) × 100 | Visibilità di base. Il numero “sanno che esisto?”. |
| Share of Model | (Tuo numero di menzioni / Totale menzioni brand nel set di risposte) × 100 | Posizione competitiva. La tua fetta della torta “tutti i brand nominati dal modello”. |
| Prominence Score | Ponderato: first-mention=3, listed=2, mentioned=1, media sulle apparizioni | Qualità della citazione. Essere terzi in una lista di sette non è come essere la risposta principale. |
| Sentiment Polarity | +1 (positivo) / 0 (neutro) / −1 (negativo), media | Come il modello ti inquadra quando ti cita. |
| Citation Source URL | URL a cui il modello attribuisce l’affermazione (quando presente) | Quale tua pagina (o del competitor) alimenta il modello. |
Nota sui benchmark di sentiment. L’analisi di Spotlight su 1,8 milioni di risposte AI (feb 2026) ha rilevato che l’80,6 % delle menzioni è neutro, il 18,4 % positivo, solo l’1 % negativo. Molto diverso dal sentiment delle recensioni prodotto, dove la negatività è più alta. Implicazione: se la tua polarità è circa +0,18 sei nella mediana della piattaforma. Molti si preoccupano delle menzioni neutre. Non dovrebbero: il neutro è la baseline.
Citation Source URL è la metrica che i team saltano più spesso e quella, secondo me, più azionabile. Se il modello cita un thread Reddit invece della tua homepage è un segnale di retrieval che puoi correggere. Se cita una pagina di confronto di un competitor dove vieni penalizzato, è un gap di contenuto. Il numero ti dice la visibilità; l’URL ti dice il perché.
La maggior parte delle guide sorvola. “Crea 30 prompt.” Ok. Quali 30? In che proporzione? Con quale formulazione?
La struttura che funziona è 10 informazionali, 10 di confronto, 10 ad alta intenzione. Sotto i 20 prompt c’è rumore statistico; oltre i 60 rendimenti decrescenti. Trenta è il punto di equilibrio.
Esempio reale (anonimizzato) per un SaaS B2B che invia email transazionali:
Il tono conta. Scrivi i prompt come li digiterebbe un utente reale, non come un SEO formerebbe una keyword. “Transactional email API alternatives 2026 best” è insalata di keyword. Nessun umano la digita. Gli assistenti AI sono addestrati su testi umani: i tuoi prompt devono imitare la voce reale dell’utente. (Nota a parte: tengo un Google Doc di prompt presi parola per parola dai ticket di supporto clienti. È la fonte più pulita di “cosa chiede davvero un utente”.)
I quattro obbligatori: ChatGPT, Perplexity, Google AI Mode (e AI Overviews), Gemini. Coprono quasi tutta la superficie pubblica nel 2026.
| Motore | Eseguirlo? | Perché |
|---|---|---|
| ChatGPT | Sempre | La più ampia superficie consumer; l’effetto “brand list congelata” lo rende il più difficile da penetrare |
| Perplexity | Sempre | Retrieval fresco per query; fa emergere brand di nicchia; numeri lusinghieri ma diagnostici |
| Google AI Mode + Overviews | Sempre | Legame più stretto con i ranking Google tradizionali; maggiore rischio di sostituzione del traffico organico |
| Gemini | Sempre | Importante se i tuoi buyer usano Workspace |
| Claude | Solo enterprise | Superficie consumer ridotta; dati rumorosi se non vendi a organizzazioni che usano Claude for Business |
| Grok / DeepSeek | Salta di default | Pubblico specifico; esegui solo se hai una motivazione chiara oltre al “trend” |
Lo ripeto ai clienti: dagli audit eseguiti con l’AI Visibility Checker, la sorpresa più comune è che il tasso di citazione su Perplexity batte ChatGPT di multipli — anche quando le dashboard di rank-tracking su ChatGPT dicono il contrario. L’errore è trattare ChatGPT come proxy di tutta la ricerca AI. Non lo è. Perplexity fa emergere brand di nicchia più aggressivamente perché effettua retrieval web fresco, mentre il cut-off di training di ChatGPT crea un effetto “brand list congelata” per tutto ciò che è fuori dalla top 20 di categoria.
Se hai tempo per un solo motore la prima settimana, scegli Perplexity. Vedrai i numeri più lusinghieri, sembra negativo ma è utile: indica se la pipeline di retrieval riesce a trovarti.
Questa è la sezione che metterei in grassetto se ne potessi salvare una sola.
Rand Fishkin e Patrick O’Donnell hanno condotto un esperimento a inizio 2026: stessi 12 prompt, 2.961 run sui principali assistenti AI. Il risultato (pubblicato su SparkToro): la probabilità che due risposte restituiscano lo stesso elenco ordinato di brand è inferiore a 1 su 1.000. Inferiore a 1 su 1.000. Stesso prompt, stesso modello, a minuti di distanza.
Se esegui un prompt una volta e annoti ciò che vedi, non hai misurato la tua visibilità. Hai misurato un’estrazione Monte Carlo da una distribuzione che non conosci. L’audit pubblicato su quel singolo run è sbagliato perché ti sei fermato troppo presto.
La soluzione è N=5 minimo. Cinque run per prompt, in giorni diversi, sessioni nuove, cookie cancellati. (Ammetto: consiglierei N=10 ma pochi team lo fanno, e N=5 stabilizza i metric headline entro ~10 % di errore relativo.) Totale: 30 × 5 × 4 = 600 datapoint. Sembra tanto. Con checklist e foglio di calcolo sono circa quattro ore.
Esegui le sessioni in giorni diversi, non a poche ore di distanza. I modelli fanno caching aggressivo a livello di inferenza. Due run a 10 minuti possono restituire risposte identiche per motivi di cache, non per la reale distribuzione di probabilità. La distanza di un giorno campiona in modo più equo.
I dettagli operativi sono il punto in cui le altre guide glissano. Ecco la sequenza reale.
Pre-flight (15 min). Apri quattro schede in incognito: ChatGPT, Perplexity, Google con AI Mode attivo, Gemini. Un ChatGPT loggato ricorda che hai chiesto del tuo brand 40 volte e tenderà a privilegiarti: non è la sessione media dell’utente. Incognito per tutto.
Schema del foglio. Nove colonne: prompt_id (P01-P30), prompt_text, tier, engine, run_number (1-5), brand_appeared (1/0), position (intero o null), sentiment (+1/0/-1), cited_url. Niente fronzoli. Le righe compilate appaiono così:
| prompt_id | tier | engine | run | appeared | position | sentiment | cited_url |
|---|---|---|---|---|---|---|---|
| P03 | informational | Perplexity | 1 | 1 | 2 | 0 | acme.com/guide |
| P03 | informational | ChatGPT | 1 | 0 | — | — | — |
| P11 | comparison | Perplexity | 2 | 1 | 1 | +1 | reddit.com/r/saas/... |
| P11 | comparison | Google AI Mode | 2 | 1 | 4 | 0 | g2.com/categories/... |
| P24 | high-intent | Gemini | 3 | 1 | 3 | -1 | competitor.com/vs-acme |
Loop di esecuzione. Per ogni prompt, esegui sul motore 1, copia la risposta, compila la riga, passa al motore 2. Completa i quattro motori per il prompt 1 prima di passare al prompt 2. Il confronto cross-engine è la lettura più utile; clustra, non disperdere.
Codifica del sentiment. +1 se la risposta ti raccomanda o ti include tra “i migliori”. 0 se ti nomina senza qualifiche. −1 se dice che sei peggiore delle alternative o mette in guardia. La maggior parte delle righe sarà 0. Normale (non drammatizzare le menzioni neutre).
Regole di posizione. Posizione 1 = primo brand citato nel corpo. Se sei il punto 4 di un “top 10”, posizione 4. Se citato due volte, prendi la posizione migliore. Citation URL: Perplexity li fornisce diretti; ChatGPT solo se era attivo il browsing; Google AI Mode mostra le schede fonte; Gemini varia. Registra solo quando disponibile. Non inferire.
Quattro ore in totale per un audit 30 × 5 × 4. Cronometrato. La prima ora è la più lenta mentre affini l’intuizione sul sentiment; dal terzo run è meccanico.
Dati fittizi per il brand immaginario Acme Analytics (Acme è inventato; la struttura rispecchia audit reali).
Citation Rate. Su 600 misurazioni, il brand appare in 138. Citation Rate = 23 %. Per un SaaS B2B in categoria competitiva, 15-30 % è la norma al primo audit.
Share of Model. In 138 risposte, ognuna nomina 7 brand in media. Menzioni totali: 966. Share of Model = 138 / 966 = 14,3 %. Quando il modello include Acme, Acme è uno dei sette brand citati.
Prominence Score. 21 first-mention (×3), 67 listed (×2), 50 mentioned (×1). Totale ponderato 247, diviso 138 = 1,79. Più “a metà lista” che “risposta principale”. Qui vivono i feedback più azionabili.
Sentiment Polarity. +25 – 4 = +21 sulle apparizioni. Media = +0,15. Leggermente positivo, poco sotto la mediana piattaforma di +0,18 (Spotlight 2026). Non male. Non eccellente.
Se vuoi un numero unico, moltiplica Citation Rate per la Visibility ponderata dal sentiment. Acme: 23 % × (1 + 0,15) = 26,5. Non esiste ancora un benchmark di settore per questo composito; la metodologia ha sei mesi. Il trend audit-over-audit è più significativo di qualunque soglia assoluta.
I numeri senza diagnosi sono vanity metric. Il framework di triage divide i gap in tre bucket, ognuno con una correzione e un tempo diverso.
Foundational gap. Assente su tutte le piattaforme nei prompt informazionali. Il modello non sa che esisti come entità di categoria. Sintomo: Citation Rate vicino a zero sul tier 1, apparizioni solo su tier 3 quando il brand è nel prompt. Fix: authority off-site — PR digitale su pubblicazioni indicizzate dal modello, presenza Wikipedia, thread Reddit nei subreddit attivi. Programma da 60-90 giorni. La nostra guida multisource SEO copre tutto l’off-site.
Platform-specific gap. Presente su Perplexity, assente su ChatGPT (o viceversa). Il modello ti conosce ma il layer di retrieval non ti trova con affidabilità. Sintomo: split 5× o più nel Citation Rate fra motori. Fix: repair di retrieval signal — markup schema (Organization, Product, FAQ), llms.txt, rendering server-side affinché crawler non-JS (GPTBot, PerplexityBot) leggano le tue pagine. Il playbook AI crawler copre i fix lato accesso.
Prominence gap. Citato ma sempre in posizione 4-7. Il modello sa che conti; non ti vede come risposta principale. Fix: contenuti di confronto e posizionamento first-mention. Pubblica pagine “X vs te” dove controlli la narrativa. Crea il listicle canonico “migliori [categoria] tools” sul tuo dominio (con copertura onesta dei competitor). Fix 30-60 giorni; il gap più comune che vedo.
Non trattare i tre casi allo stesso modo. I gap foundational non si risolvono con lo schema. I platform gap non si risolvono con la PR. Fai triage, poi intervieni.
Una volta è uno snapshot. Due volte è un trend. Cinque volte è un processo. La cadenza che uso con i clienti e su SEOJuice:
Il significato di categoria deriva nei dati di training AI più in fretta di quanto pensi. “AI SEO tool” nel 2024 significava qualcosa di diverso dal 2026. Se il tuo set di prompt ha sei mesi e aggiorni solo i run, stai misurando una categoria stantia. Il rebuild trimestrale non è negoziabile.
Traccia i delta tra audit, non i numeri assoluti. “Il Citation Rate è passato dal 23 % al 28 % nel Q1” è un segnale reale. “Il nostro Citation Rate è 23 %” da solo non dice nulla: manca un benchmark ampio. Il tuo passato è il benchmark.
I limiti contano quanto la metodologia. Se ti vendo l’audit e scopri i limiti dopo, ti sentirai ingannato. Quindi, in chiaro:
Se l’audit manuale ti sembra oneroso, l’AI Visibility Checker automatizza run, campionamento di varianza e scorecard con la stessa metodologia descritta. Il punto di questo articolo è la metodologia, non lo strumento. Se preferisci il foglio di calcolo, va benissimo.
Mensilmente per l’intero set da 30 prompt, settimanalmente per i 5 prompt più critici. Trimestralmente, ricostruisci da zero il prompt bank perché linguaggio di categoria e query evolvono più in fretta dei run.
No. Un foglio di calcolo, quattro schede (ChatGPT, Perplexity, Google AI Mode, Gemini) e quattro ore di lavoro concentrato bastano. Gli strumenti fanno risparmiare tempo su campionamento e scoring, ma la metodologia resta la stessa.
Non esiste ancora un benchmark di settore. Per un SaaS B2B in categoria mediamente competitiva, 15-30 % è tipico al primo audit. Il trend nel tempo conta più del numero assoluto. Se passi dal 18 % al 26 % in un trimestre, stai vincendo.
Perplexity effettua retrieval fresco per query e fa emergere brand nuovi o piccoli più facilmente. ChatGPT si affida di più ai segnali del training, creando un effetto “brand list congelata” per ciò che è fuori dalla top 20 di categoria. È un platform-specific gap; la soluzione sono i retrieval signal (schema, llms.txt, rendering server-side), non più PR.
Un audit SEO classico misura come i motori indicizzano, renderizzano e posizionano le tue pagine. Un audit di visibilità AI misura se gli LLM citano il tuo brand in risposta a domande di categoria. Segnali, metriche e problemi differenti. Servono entrambi. The shift from SEO to GEO spiega la differenza concettuale.
Letture correlate:
Se vuoi saltare il foglio di calcolo, prova l’AI Visibility Checker. Stessa metodologia, stesse metriche, tutto automatizzato.
no credit card required