Métrica de estabilidad del prompt para comprobar si las salidas con una temperatura más alta mantienen los mismos hechos, entidades e intención.
El Thermal Coherence Score (puntuación de coherencia térmica) mide qué tan estable se mantiene la respuesta de un LLM cuando se modifica la temperatura. En el trabajo GEO, esto importa porque los prompts que se desmoronan de 0,7 a 0,9 generan hechos inconsistentes, un control débil de la marca y contenido que no puedes escalar de forma segura.
Puntuación de Coherencia Térmica (TCS) es una métrica de calidad del prompt que comprueba si un LLM conserva el significado central cuando se sube o baja la temperatura de muestreo. En la práctica, ayuda a los equipos de GEO a diferenciar los prompts que son robustos de aquellos que solo “quedan bien” cuando la temperatura es 0.1.
La idea es útil. El término no es estándar. No encontrarás TCS en Google Search Console, Ahrefs, Semrush, Moz, Screaming Frog ni Surfer SEO, y Google no lo ha publicado como métrica de ranking o de calidad. Trátalo como una puntuación interna de QA, no como un referente del sector.
La configuración habitual es simple: ejecuta el mismo prompt con varias temperaturas, normalmente 0.1, 0.5 y 0.9, y luego compara las salidas para ver la consistencia semántica. La mayoría de los equipos usa embeddings más similitud coseno, y luego añade ponderaciones adicionales para los datos que importan: nombres de producto, precios, fechas, afirmaciones legales, ubicaciones y terminología de marca.
Un umbral práctico: por debajo de 0.75, el prompt suele necesitar mejoras. Por encima de 0.85, a menudo ya es lo bastante estable para una producción a escala. Dicho esto, los umbrales varían según el nivel de riesgo. Un blog de viajes puede tolerar más desviación que un explicador de salud o una página de comparación de APR.
La Generative Engine Optimization no consiste solo en lograr que los sistemas de IA te citen. También se trata de producir contenido fuente y marcos de prompts que se mantengan consistentes a través de los ajustes del modelo y las actualizaciones del modelo. TCS ofrece a los equipos una forma de comprobarlo antes de que salidas deficientes lleguen a producción.
Es especialmente útil para:
Una advertencia honesta: una alta coherencia no significa alta precisión. Un modelo puede repetir la misma afirmación incorrecta a todas las temperaturas y aun así obtener una buena puntuación. TCS mide estabilidad, no veracidad. Aun así, necesitas validar los hechos frente a documentos fuente, feeds de productos o una base de conocimiento.
Mantén fijo el mensaje del sistema. Cambia una variable del prompt a la vez. Registra las salidas por versión del modelo, porque un prompt que obtiene 0.88 en un lanzamiento puede caer a 0.71 después de una actualización de la API. Las pruebas de regresión nocturnas ayudan.
Además, no confundas la similitud semántica con la utilidad. Dos salidas pueden ser muy parecidas y aun así igualmente mediocres. Combina TCS con revisión editorial, comprobaciones de extracción de entidades y datos de rendimiento downstream provenientes de GSC. Si las páginas construidas a partir de prompts “estables” siguen perdiendo clics o generan afirmaciones no respaldadas, la puntuación no está resolviendo tu problema real.
Conclusión: TCS es una métrica interna sólida para medir la robustez del prompt. Solo no la trates como un KPI universal de GEO. Es una capa de QA, no un factor de ranking.
Multiplica la participación de citas de IA y protege el …
Mide la potencia de citación de tu modelo: el Grounding …
Cómo ChatGPT, Perplexity y la IA de Google seleccionan y …
Mejore la precisión de las entidades para desbloquear widgets más …
Citas de marcas por LLM: qué es lo que realmente …
Diseñar conjuntos de datos para la clasificación de contenido con …
Get expert SEO insights and automated optimizations with our platform.
Get Started Free