Come eseguire un audit di visibilità con l’IA nel 2026

Aggiornato ad aprile 2026

In sintesi:

Un audit di visibilità AI misura il tasso di citazione del brand su ChatGPT, Perplexity, Google AI Mode, Claude e Gemini. Non misura ricavi, CTR o churn.
Eseguire un solo prompt è statisticamente fuorviante. Gumshoe.ai ha rilevato che la probabilità che due risposte producano lo stesso elenco ordinato di brand è inferiore a 1 su 1.000 su 2.961 esecuzioni. Esegui ogni prompt N=5, in giorni diversi e con sessioni pulite.
I quattro numeri che contano: Citation Rate, Share of Model, Prominence Score, polarità del sentiment. Benchmark di settore (Spotlight, feb 2026): l’80,6 % delle menzioni è neutra, l’1 % negativa.
Tre tipi di gap, tre soluzioni. Foundational = problema di PR. Platform-specific = problema di retrieval. Prominence = problema di posizionamento. Metterli tutti insieme è il motivo per cui la maggior parte dei team abbandona dopo il primo audit.
Puoi completare un audit utilizzabile entro lunedì con un foglio di calcolo, 30 prompt e quattro schede del browser. Oppure usa l’AI Visibility Checker. La metodologia è la stessa.

Cosa risponde davvero un audit di visibilità AI (e cosa no)

Facciamo un passo indietro. La maggior parte degli audit fallisce non per errori di misurazione ma per aspettative sbagliate. Un founder spera che l’audit spieghi perché il traffico organico è calato. Non lo farà. Dirà solo se il tuo brand compare quando un assistente AI riceve una domanda chiave di categoria e in quale posizione di citazione. Fine.

Molti team non eseguono un secondo audit. Il primo non produce insight azionabili oppure la cadenza salta per altre priorità. Eseguono 30 prompt una sola volta, vedono un numero (“compariamo nel 23 % delle risposte”) e non sanno che farne. È buono il 23 %? Perplexity e ChatGPT concordano? Non lo sanno: un audit one-shot è l’unità di analisi sbagliata.

Tim Soulo (CMO di Ahrefs) lo ha riassunto bene nel suo roundup di febbraio 2026: il monitoraggio della visibilità AI “è ancora alle primissime fasi” e chi costruisce processi ora ha una finestra da first mover. Giusto, ma aggiungo la versione meno glamour: la metodologia è ancora instabile. Se vuoi un numero difendibile in board meeting, devi sapere cosa l’audit può o non può dimostrare.

Cosa risponde: se sei citato nelle risposte AI per query di categoria, con quale frequenza rispetto ai competitor, dove (prima menzione, metà lista, nota a piè di pagina), il sentiment e quali motori ti trattano bene o male. Cosa non risponde: causazione dei ricavi, share of attention vs share of citation, rischio churn o se la ricerca AI sarà il 5 % o il 50 % del funnel nel 2027. Chiunque venda uno strumento che pretende di rispondere a queste domande sta vendendo previsioni mascherate da misurazioni.

I 5 metriche che ogni audit deve rilevare

Cinque colonne. Se il tuo audit rileva solo queste, sei al 90 % del lavoro.

Metrica	Formula	Indicazione
Citation Rate	(Prompt in cui appare il brand / Prompt totali) × 100	Visibilità di base. Il numero “sanno che esisto?”.
Share of Model	(Tuo numero di menzioni / Totale menzioni brand nel set di risposte) × 100	Posizione competitiva. La tua fetta della torta “tutti i brand nominati dal modello”.
Prominence Score	Ponderato: first-mention=3, listed=2, mentioned=1, media sulle apparizioni	Qualità della citazione. Essere terzi in una lista di sette non è come essere la risposta principale.
Sentiment Polarity	+1 (positivo) / 0 (neutro) / −1 (negativo), media	Come il modello ti inquadra quando ti cita.
Citation Source URL	URL a cui il modello attribuisce l’affermazione (quando presente)	Quale tua pagina (o del competitor) alimenta il modello.

Nota sui benchmark di sentiment. L’analisi di Spotlight su 1,8 milioni di risposte AI (feb 2026) ha rilevato che l’80,6 % delle menzioni è neutro, il 18,4 % positivo, solo l’1 % negativo. Molto diverso dal sentiment delle recensioni prodotto, dove la negatività è più alta. Implicazione: se la tua polarità è circa +0,18 sei nella mediana della piattaforma. Molti si preoccupano delle menzioni neutre. Non dovrebbero: il neutro è la baseline.

Scheda visiva: Citation Rate uguale prompt con menzione diviso prompt totali per 100, griglia di 30 prompt con 8 evidenziati che indicano 26,7 percento — Come funziona il Citation Rate: 8 prompt su 30 citano il brand, quindi Citation Rate = 26,7 %. Fonte: metodologia SEOJuice.

Citation Source URL è la metrica che i team saltano più spesso e quella, secondo me, più azionabile. Se il modello cita un thread Reddit invece della tua homepage è un segnale di retrieval che puoi correggere. Se cita una pagina di confronto di un competitor dove vieni penalizzato, è un gap di contenuto. Il numero ti dice la visibilità; l’URL ti dice il perché.

Costruire un set di 30 prompt: il framework 10/10/10

La maggior parte delle guide sorvola. “Crea 30 prompt.” Ok. Quali 30? In che proporzione? Con quale formulazione?

La struttura che funziona è 10 informazionali, 10 di confronto, 10 ad alta intenzione. Sotto i 20 prompt c’è rumore statistico; oltre i 60 rendimenti decrescenti. Trenta è il punto di equilibrio.

10 informazionali: definiscono la categoria, nessun brand citato. “Qual è il modo migliore per fare X?” Misura se il modello pensa a te spontaneamente. Più difficile da penetrare, più prezioso.
10 di confronto: testa a testa. “X vs Y per [use case].” “Alternative a [competitor].” Misura se sei nel set competitivo considerato dal modello.
10 ad alta intenzione: fase d’acquisto. “Miglior [tool] sotto i 50 $/mese.” Più vicini al fondo del funnel. Qui la citazione incide di più sui ricavi, meno sulla brand awareness generale.

Esempio reale (anonimizzato) per un SaaS B2B che invia email transazionali:

Informazionale: “Come gestiscono l’affidabilità delle email transazionali i piccoli team SaaS?”
Informazionale: “Com’è uno stack di deliverability nel 2026?”
Confronto: “Postmark vs Resend per una startup Series A.”
Confronto: “Alternative a SendGrid per email transazionali.”
Alta intenzione: “Miglior API email transazionale sotto 50 $/mese per un SaaS da 50k utenti.”
Alta intenzione: “Servizio email transazionale con il miglior supporto React Email.”

Il tono conta. Scrivi i prompt come li digiterebbe un utente reale, non come un SEO formerebbe una keyword. “Transactional email API alternatives 2026 best” è insalata di keyword. Nessun umano la digita. Gli assistenti AI sono addestrati su testi umani: i tuoi prompt devono imitare la voce reale dell’utente. (Nota a parte: tengo un Google Doc di prompt presi parola per parola dai ticket di supporto clienti. È la fonte più pulita di “cosa chiede davvero un utente”.)

Diagramma a tre colonne che mostra il framework 10/10/10 con categorie informazionale, confronto e alta intenzione, codificate per colore con esempi di prompt sotto ciascuna — Il framework 10/10/10: copertura bilanciata tra prompt informazionali, di confronto e ad alta intenzione. Fonte: metodologia SEOJuice.

Quali motori AI testare (e quali saltare)

I quattro obbligatori: ChatGPT, Perplexity, Google AI Mode (e AI Overviews), Gemini. Coprono quasi tutta la superficie pubblica nel 2026.

Motore	Eseguirlo?	Perché
ChatGPT	Sempre	La più ampia superficie consumer; l’effetto “brand list congelata” lo rende il più difficile da penetrare
Perplexity	Sempre	Retrieval fresco per query; fa emergere brand di nicchia; numeri lusinghieri ma diagnostici
Google AI Mode + Overviews	Sempre	Legame più stretto con i ranking Google tradizionali; maggiore rischio di sostituzione del traffico organico
Gemini	Sempre	Importante se i tuoi buyer usano Workspace
Claude	Solo enterprise	Superficie consumer ridotta; dati rumorosi se non vendi a organizzazioni che usano Claude for Business
Grok / DeepSeek	Salta di default	Pubblico specifico; esegui solo se hai una motivazione chiara oltre al “trend”

Lo ripeto ai clienti: dagli audit eseguiti con l’AI Visibility Checker, la sorpresa più comune è che il tasso di citazione su Perplexity batte ChatGPT di multipli — anche quando le dashboard di rank-tracking su ChatGPT dicono il contrario. L’errore è trattare ChatGPT come proxy di tutta la ricerca AI. Non lo è. Perplexity fa emergere brand di nicchia più aggressivamente perché effettua retrieval web fresco, mentre il cut-off di training di ChatGPT crea un effetto “brand list congelata” per tutto ciò che è fuori dalla top 20 di categoria.

Se hai tempo per un solo motore la prima settimana, scegli Perplexity. Vedrai i numeri più lusinghieri, sembra negativo ma è utile: indica se la pipeline di retrieval riesce a trovarti.

Il problema della varianza: perché un solo run mente

Questa è la sezione che metterei in grassetto se ne potessi salvare una sola.

Rand Fishkin e Patrick O’Donnell hanno condotto un esperimento a inizio 2026: stessi 12 prompt, 2.961 run sui principali assistenti AI. Il risultato (pubblicato su SparkToro): la probabilità che due risposte restituiscano lo stesso elenco ordinato di brand è inferiore a 1 su 1.000. Inferiore a 1 su 1.000. Stesso prompt, stesso modello, a minuti di distanza.

Se esegui un prompt una volta e annoti ciò che vedi, non hai misurato la tua visibilità. Hai misurato un’estrazione Monte Carlo da una distribuzione che non conosci. L’audit pubblicato su quel singolo run è sbagliato perché ti sei fermato troppo presto.

La soluzione è N=5 minimo. Cinque run per prompt, in giorni diversi, sessioni nuove, cookie cancellati. (Ammetto: consiglierei N=10 ma pochi team lo fanno, e N=5 stabilizza i metric headline entro ~10 % di errore relativo.) Totale: 30 × 5 × 4 = 600 datapoint. Sembra tanto. Con checklist e foglio di calcolo sono circa quattro ore.

Stesso prompt, cinque run ciascuno, tre motori. Il brand appare 4× su Perplexity, 1× su ChatGPT, 3× su Google AI Mode. Questa varianza è la regola, non l’eccezione. Fonte: replica in stile Gumshoe.ai.

Esegui le sessioni in giorni diversi, non a poche ore di distanza. I modelli fanno caching aggressivo a livello di inferenza. Due run a 10 minuti possono restituire risposte identiche per motivi di cache, non per la reale distribuzione di probabilità. La distanza di un giorno campiona in modo più equo.

Eseguire l’audit manualmente: playbook del lunedì mattina

I dettagli operativi sono il punto in cui le altre guide glissano. Ecco la sequenza reale.

Pre-flight (15 min). Apri quattro schede in incognito: ChatGPT, Perplexity, Google con AI Mode attivo, Gemini. Un ChatGPT loggato ricorda che hai chiesto del tuo brand 40 volte e tenderà a privilegiarti: non è la sessione media dell’utente. Incognito per tutto.

Schema del foglio. Nove colonne: prompt_id (P01-P30), prompt_text, tier, engine, run_number (1-5), brand_appeared (1/0), position (intero o null), sentiment (+1/0/-1), cited_url. Niente fronzoli. Le righe compilate appaiono così:

prompt_id	tier	engine	run	appeared	position	sentiment	cited_url
P03	informational	Perplexity	1	1	2	0	acme.com/guide
P03	informational	ChatGPT	1	0	—	—	—
P11	comparison	Perplexity	2	1	1	+1	reddit.com/r/saas/...
P11	comparison	Google AI Mode	2	1	4	0	g2.com/categories/...
P24	high-intent	Gemini	3	1	3	-1	competitor.com/vs-acme

Loop di esecuzione. Per ogni prompt, esegui sul motore 1, copia la risposta, compila la riga, passa al motore 2. Completa i quattro motori per il prompt 1 prima di passare al prompt 2. Il confronto cross-engine è la lettura più utile; clustra, non disperdere.

Codifica del sentiment. +1 se la risposta ti raccomanda o ti include tra “i migliori”. 0 se ti nomina senza qualifiche. −1 se dice che sei peggiore delle alternative o mette in guardia. La maggior parte delle righe sarà 0. Normale (non drammatizzare le menzioni neutre).

Regole di posizione. Posizione 1 = primo brand citato nel corpo. Se sei il punto 4 di un “top 10”, posizione 4. Se citato due volte, prendi la posizione migliore. Citation URL: Perplexity li fornisce diretti; ChatGPT solo se era attivo il browsing; Google AI Mode mostra le schede fonte; Gemini varia. Registra solo quando disponibile. Non inferire.

Quattro ore in totale per un audit 30 × 5 × 4. Cronometrato. La prima ora è la più lenta mentre affini l’intuizione sul sentiment; dal terzo run è meccanico.

Calcolare i punteggi: le formule sul campo

Dati fittizi per il brand immaginario Acme Analytics (Acme è inventato; la struttura rispecchia audit reali).

Citation Rate. Su 600 misurazioni, il brand appare in 138. Citation Rate = 23 %. Per un SaaS B2B in categoria competitiva, 15-30 % è la norma al primo audit.

Share of Model. In 138 risposte, ognuna nomina 7 brand in media. Menzioni totali: 966. Share of Model = 138 / 966 = 14,3 %. Quando il modello include Acme, Acme è uno dei sette brand citati.

Prominence Score. 21 first-mention (×3), 67 listed (×2), 50 mentioned (×1). Totale ponderato 247, diviso 138 = 1,79. Più “a metà lista” che “risposta principale”. Qui vivono i feedback più azionabili.

Sentiment Polarity. +25 – 4 = +21 sulle apparizioni. Media = +0,15. Leggermente positivo, poco sotto la mediana piattaforma di +0,18 (Spotlight 2026). Non male. Non eccellente.

La scorecard a quattro metriche: come appare un riepilogo d’audit completo. Fonte: template SEOJuice.

Se vuoi un numero unico, moltiplica Citation Rate per la Visibility ponderata dal sentiment. Acme: 23 % × (1 + 0,15) = 26,5. Non esiste ancora un benchmark di settore per questo composito; la metodologia ha sei mesi. Il trend audit-over-audit è più significativo di qualunque soglia assoluta.

Diagnosticare i gap: foundational vs platform vs prominence

I numeri senza diagnosi sono vanity metric. Il framework di triage divide i gap in tre bucket, ognuno con una correzione e un tempo diverso.

Albero decisionale che parte da sei menzionato e dirama in foundational gap, platform-specific gap o prominence gap, ciascuno con freccia colorata di fix a 30 giorni — L’albero di triage dei gap di citazione: tre rami, tre percorsi di fix. Fonte: metodologia SEOJuice.

Foundational gap. Assente su tutte le piattaforme nei prompt informazionali. Il modello non sa che esisti come entità di categoria. Sintomo: Citation Rate vicino a zero sul tier 1, apparizioni solo su tier 3 quando il brand è nel prompt. Fix: authority off-site — PR digitale su pubblicazioni indicizzate dal modello, presenza Wikipedia, thread Reddit nei subreddit attivi. Programma da 60-90 giorni. La nostra guida multisource SEO copre tutto l’off-site.

Platform-specific gap. Presente su Perplexity, assente su ChatGPT (o viceversa). Il modello ti conosce ma il layer di retrieval non ti trova con affidabilità. Sintomo: split 5× o più nel Citation Rate fra motori. Fix: repair di retrieval signal — markup schema (Organization, Product, FAQ), llms.txt, rendering server-side affinché crawler non-JS (GPTBot, PerplexityBot) leggano le tue pagine. Il playbook AI crawler copre i fix lato accesso.

Prominence gap. Citato ma sempre in posizione 4-7. Il modello sa che conti; non ti vede come risposta principale. Fix: contenuti di confronto e posizionamento first-mention. Pubblica pagine “X vs te” dove controlli la narrativa. Crea il listicle canonico “migliori [categoria] tools” sul tuo dominio (con copertura onesta dei competitor). Fix 30-60 giorni; il gap più comune che vedo.

Non trattare i tre casi allo stesso modo. I gap foundational non si risolvono con lo schema. I platform gap non si risolvono con la PR. Fai triage, poi intervieni.

Dopo il primo audit: la cadenza mensile

Una volta è uno snapshot. Due volte è un trend. Cinque volte è un processo. La cadenza che uso con i clienti e su SEOJuice:

Settimanale: solo i 5 prompt più critici — quelli “nomina la tua categoria e i tre principali competitor”. Per intercettare drift rapido.
Mensile: set completo di 30 prompt, campionamento completo N=5. È la cadenza principale.
Trimestrale: ricostruisci il prompt bank. Il linguaggio di categoria e il comportamento di ricerca cambiano più velocemente di quanto i run rivelino.

Il significato di categoria deriva nei dati di training AI più in fretta di quanto pensi. “AI SEO tool” nel 2024 significava qualcosa di diverso dal 2026. Se il tuo set di prompt ha sei mesi e aggiorni solo i run, stai misurando una categoria stantia. Il rebuild trimestrale non è negoziabile.

Traccia i delta tra audit, non i numeri assoluti. “Il Citation Rate è passato dal 23 % al 28 % nel Q1” è un segnale reale. “Il nostro Citation Rate è 23 %” da solo non dice nulla: manca un benchmark ampio. Il tuo passato è il benchmark.

Limiti onesti: cosa non può dirti un audit di visibilità AI

I limiti contano quanto la metodologia. Se ti vendo l’audit e scopri i limiti dopo, ti sentirai ingannato. Quindi, in chiaro:

L’audit non stabilisce la causazione dei ricavi. La citazione AI correla con la mind-share e forse con le conversioni, ma la catena causale non è misurata. I dati su Google AI Overviews mostrano redistribuzione di traffico, non impatto sui ricavi.
Non misura l’impatto sul churn. Nessun caso documentato di churn aumentato per bassa visibilità AI; i dati non esistono. Chi dice il contrario sta prevedendo, non misurando.
Non distingue share of attention da share of citation. Un brand citato nell’1 % dei prompt ma con lunghe citazioni incide diversamente da uno citato nel 30 % con menzioni di una riga. Il Prominence Score aiuta ma non risolve del tutto.
Non risponde a “l’AI ucciderà la SEO”. I dati oggi indicano che la ricerca AI rialloca l’attenzione, non cancella il canale.

Se l’audit manuale ti sembra oneroso, l’AI Visibility Checker automatizza run, campionamento di varianza e scorecard con la stessa metodologia descritta. Il punto di questo articolo è la metodologia, non lo strumento. Se preferisci il foglio di calcolo, va benissimo.

Domande frequenti

Con che frequenza dovrei fare un audit di visibilità AI?

Mensilmente per l’intero set da 30 prompt, settimanalmente per i 5 prompt più critici. Trimestralmente, ricostruisci da zero il prompt bank perché linguaggio di categoria e query evolvono più in fretta dei run.

Serve uno strumento per fare l’audit?

No. Un foglio di calcolo, quattro schede (ChatGPT, Perplexity, Google AI Mode, Gemini) e quattro ore di lavoro concentrato bastano. Gli strumenti fanno risparmiare tempo su campionamento e scoring, ma la metodologia resta la stessa.

Qual è un buon Citation Rate?

Non esiste ancora un benchmark di settore. Per un SaaS B2B in categoria mediamente competitiva, 15-30 % è tipico al primo audit. Il trend nel tempo conta più del numero assoluto. Se passi dal 18 % al 26 % in un trimestre, stai vincendo.

Perché il mio brand appare su Perplexity ma non su ChatGPT?

Perplexity effettua retrieval fresco per query e fa emergere brand nuovi o piccoli più facilmente. ChatGPT si affida di più ai segnali del training, creando un effetto “brand list congelata” per ciò che è fuori dalla top 20 di categoria. È un platform-specific gap; la soluzione sono i retrieval signal (schema, llms.txt, rendering server-side), non più PR.

In cosa un audit di visibilità AI è diverso da un audit SEO tradizionale?

Un audit SEO classico misura come i motori indicizzano, renderizzano e posizionano le tue pagine. Un audit di visibilità AI misura se gli LLM citano il tuo brand in risposta a domande di categoria. Segnali, metriche e problemi differenti. Servono entrambi. The shift from SEO to GEO spiega la differenza concettuale.

Letture correlate:

Se vuoi saltare il foglio di calcolo, prova l’AI Visibility Checker. Stessa metodologia, stesse metriche, tutto automatizzato.

Features

Start boosting your SEO today

Resources

Educate yourself