Una metrica di stabilità dei prompt per testare se, con output a temperatura più alta, rimangono gli stessi fatti, le stesse entità e la stessa intenzione.
Il Thermal Coherence Score misura quanto resta stabile la risposta di un LLM al variare del parametro temperature. Nell’ambito GEO, è importante perché i prompt che collassano tra 0,7 e 0,9 generano fatti incoerenti, un controllo debole del brand e contenuti che non puoi scalare in modo sicuro.
Thermal Coherence Score (TCS) è una metrica di qualità del prompt che verifica se un LLM preserva il significato centrale quando si aumenta o si riduce la temperatura di campionamento. In pratica, aiuta i team GEO a distinguere i prompt robusti da quelli che risultano soltanto ben riusciti a una temperatura di 0,1.
L’idea è utile. Il termine non è standard. Non troverai TCS in Google Search Console, Ahrefs, Semrush, Moz, Screaming Frog o Surfer SEO, e Google non lo ha pubblicato come metrica di ranking o di qualità. Trattalo come un punteggio interno di QA, non come un benchmark di settore.
L’impostazione più comune è semplice: esegui lo stesso prompt a più temperature, di solito 0,1, 0,5 e 0,9, quindi confronta le uscite per verificare la consistenza semantica. La maggior parte dei team usa embedding più similarità coseno, e poi aggiunge un’ulteriore ponderazione per i fatti che contano: nomi di prodotto, prezzi, date, affermazioni legali, località e terminologia di marca.
Una soglia pratica: sotto 0,75, il prompt di solito necessita di lavoro. Sopra 0,85, spesso è abbastanza stabile per una produzione scalata. Detto ciò, le soglie variano in base al rischio. Un blog di viaggi può tollerare più deriva rispetto a un approfondimento sanitario o a una pagina di confronto APR.
La Generative Engine Optimization non riguarda solo ottenere citazioni da parte dei sistemi AI. Riguarda anche produrre contenuti sorgente e framework di prompt che restino coerenti tra impostazioni dei modelli e aggiornamenti dei modelli. TCS dà ai team un modo per testare tutto questo prima che output scadenti arrivino in produzione.
È particolarmente utile per:
Una nota di onestà: un’elevata coerenza non significa elevata accuratezza. Un modello può ripetere ogni volta la stessa affermazione errata a ogni temperatura e comunque ottenere un punteggio alto. TCS misura la stabilità, non la verità. Ti serve comunque validazione dei fatti rispetto a documenti sorgente, feed di prodotto o una knowledge base.
Mantieni fisso il messaggio di sistema. Cambia una sola variabile del prompt alla volta. Logga le uscite in base alla versione del modello: un prompt che segna 0,88 in un rilascio può scendere a 0,71 dopo un aggiornamento dell’API. I test di regressione notturni aiutano.
Inoltre, non confondere similarità semantica con utilità. Due uscite possono essere molto simili e ugualmente mediocri. Abbina TCS a una revisione editoriale, controlli di estrazione delle entità e dati di performance a valle da GSC. Se le pagine create con prompt “stabili” perdono comunque clic o generano affermazioni non supportate, il punteggio non sta risolvendo il tuo problema reale.
In sintesi: TCS è una solida metrica interna per misurare la robustezza dei prompt. Semplicemente non fingere che sia un KPI universale per il GEO. È uno strato di QA, non un fattore di ranking.
Riduci del 60% il ritardo di visibilità delle risposte generate …
Input di training migliori producono output migliori dell’AI, ma i …
Edge Model Sync riduce la latenza a meno di 100 …
Genera il 10-30% in più di clic long-tail ottimizzando la …
Segmenta con markup Schema le tue pagine di confronto per …
Un modo pratico per valutare se le risposte dell’AI sono …
Get expert SEO insights and automated optimizations with our platform.
Get Started Free