Cómo rastrear cuándo ChatGPT, Perplexity y Claude citan tu marca

TL;DR Seguir menciones de marca en la búsqueda con IA no es lo mismo que monitorizar posiciones. ChatGPT, Perplexity, Claude, Google AI Mode y Gemini muestran citas de forma distinta, con cadencias y estabilidad diferentes. Un programa viable en 2026 tiene tres capas: un diario manual de prompts que ejecutes cada semana, un barrido automático diario que capture el texto de la respuesta y las URLs citadas, y una revisión competitiva trimestral. La investigación de Profound halló que el Turno 1 de una conversación en ChatGPT tiene 2,5 veces más probabilidad de activar una cita que el Turno 10; por eso tus prompts de seguimiento deben parecer preguntas reales de primer turno, no búsquedas por palabra clave. La herramienta importa menos que el set de prompts y la frecuencia con que lo ejecutes. El comprobador de visibilidad en IA de SEOJuice cubre el barrido diario; el diario manual y la lectura competitiva siguen siendo tarea humana.

Por qué importa ahora el rastreo de menciones de marca

AI Overviews de Google redujo el CTR de las consultas informativas en un porcentaje que muchos equipos aún están midiendo. Perplexity superó los 20 millones de usuarios activos mensuales. Las respuestas con navegación web de ChatGPT citan unas 8-12 fuentes y esas citas son la nueva primera página. Si tu marca no está en ese conjunto citado, no existes en la respuesta.

El rank tracking lleva 25 años; el seguimiento de menciones en búsqueda generativa se parece más a medición de PR que a SEO. Las citas son no deterministas: dos usuarios con la misma pregunta con 30 segundos de diferencia pueden recibir fuentes distintas porque el modelo recupera y reordena en vivo. Un programa de seguimiento debe asumir esa variabilidad en vez de ignorarla.

Existe además un componente competitivo que la búsqueda clásica nunca tuvo. En un SERP, la posición 1 es la posición 1. En una respuesta de IA, tu marca puede aparecer una vez en un resumen de 400 palabras mientras un competidor recibe tres citas y una cita textual. Tu cuota de voz dentro de la respuesta generada es un métrico real y no aparece en Search Console.

Diagrama que muestra cómo la misma consulta de marca produce superficies de citación diferentes en ChatGPT, Perplexity, Claude, Google AI Mode y Gemini, con flechas del prompt a cada formato de respuesta — El mismo prompt produce cinco superficies de citación distintas. El seguimiento debe leer cada una en sus propios términos.

Dónde afloran realmente las menciones de marca, motor por motor

Los cinco motores no se comportan igual, y un programa que los trate como un solo bloque se perderá la mayoría de lo que ocurre.

ChatGPT (con browsing o Search). Cuando ChatGPT realiza una búsqueda web dentro de la respuesta, muestra citas inline como números pequeños y un panel de Sources al costado. Ese panel suele listar 6-12 URLs. Brandon Punturo de Profound recordó algo que muchos olvidan:

«El Turno 1 tiene 2,5 veces más probabilidad de activar citas que el Turno 10 y casi 4 veces más que el Turno 20.» — Brandon Punturo, Research Lead, Profound, «How ChatGPT sources the web», 3 febrero 2026

Si tu prompt de seguimiento está dentro de una conversación sintética larga, medirás una distribución distinta a la que ve un usuario real. Solo prompts de primer turno.

Perplexity. Todas las respuestas citan. Las citas van numeradas inline y la lista completa de fuentes aparece al inicio. Es el motor más fácil de rastrear porque su formato es el más determinista: toda respuesta trae la lista de URLs que puedes scrape-ar. También es el más estricto con la calidad: páginas pobres en estructura o contenido fino rara vez entran en el set citado, incluso si ranquean bien en Google clásico.

Claude (con búsqueda web o vía Claude.ai). Anthropic añadió web search a Claude en 2025. Claude coloca las fuentes en una lista compacta al final y marcadores tipo nota al pie en el cuerpo. Cita menos fuentes (3-6) y pondera dominios de autoridad más fuerte que ChatGPT. Que tu marca salga en Claude es señal más potente que la misma cita en ChatGPT, donde la valla es más baja.

Comparación lado a lado del comportamiento de citación en ChatGPT, Perplexity, Claude, Google AI Mode y Gemini, mostrando fuentes típicas por respuesta, formato de cita, cadencia de refresco y dificultad de seguimiento — Diferencias de formato, número de fuentes y dificultad de seguimiento entre los cinco motores.

Google AI Mode y AI Overviews. AI Mode es la experiencia de chat que Google lanzó en 2025; AI Overviews son los bloques resumen sobre los resultados clásicos. Ambos se nutren del contenido web. Robby Stein, VP de Producto en Google Search, describió la mezcla de fuentes en el post de lanzamiento:

«No solo accedes a contenido web de alta calidad, sino también a fuentes en tiempo real como el Knowledge Graph, información del mundo real y datos de compras para miles de millones de productos.» — Robby Stein, VP Product Google Search, «Expanding AI Overviews and introducing AI Mode»

Consecuencia práctica: una cita en AI Mode es en parte señal de ranking orgánico y en parte señal de entidad. Si tu marca no está en el Knowledge Graph, AI Mode duda en citarte.

Gemini (chat e integración en Google). Gemini cita menos que Perplexity pero más que ChatGPT sin browsing. Las citas aparecen como chips estilo Google con favicons. Es el más difícil de rastrear a escala porque la misma consulta en la app Gemini, en AI Mode de Search y en Workspace puede generar tres formatos distintos.

El método manual de auditoría de prompts (haz esto primero)

Antes de automatizar, ejecuta una auditoría manual. El objetivo es calibrar tu set de prompts contra cómo preguntan los usuarios reales sobre tu categoría. Sáltate este paso y automatizarás prompts que nadie escribiría.

Empieza con 15-20 prompts, obtenidos de cuatro fuentes:

Tus 20 principales consultas orgánicas de los últimos 90 días en Search Console, reescritas como preguntas naturales que haría un humano a un chatbot.
Cinco prompts de “comparar” que mencionen tu marca frente a competidores directos (“cómo se compara X con Y para…”).
Cinco prompts de “recomendar” que pidan al modelo sugerir una herramienta, proveedor o enfoque en tu categoría sin nombrar marcas.
Cinco prompts de intención de compra (“mejor X para Y caso de uso en 2026”).

Ejecuta cada prompt manualmente en cinco superficies: ChatGPT (con Search), Perplexity, Claude (con búsqueda web), Google AI Mode y Gemini. Registra tres cosas por ejecución: si tu marca aparece en el texto de la respuesta, si tu dominio está en las fuentes citadas y qué competidores aparecen. Una hoja con motores por columnas y prompts por filas es todo el instrumento. Aún no mides ranking; observas cómo lucen realmente las respuestas.

La auditoría manual suele revelar tres cosas que la automatización pasa por alto. Deriva de voz: cómo describe el modelo tu marca. Si ChatGPT tergiversa sistemáticamente tu oferta, es un problema de anclaje factual que el tracking no arregla; toca corregir contenido en tus páginas de autoridad. El patrón “casi allí”: prompts donde aparecías el mes pasado y ya no, a menudo porque un competidor lanzó contenido nuevo. Y puntos ciegos en prompts de recomendación: consultas con respuesta razonable pero citas de sitios inesperados.

Patrones de seguimiento automatizado que funcionan

Una vez calibrado el set de prompts, automatiza. Tres patrones funcionan en producción:

Ejecuciones programadas de prompts. Corre tus 15-20 prompts diariamente en los motores relevantes. Captura texto completo de la respuesta, lista de URLs citadas y timestamp. Guarda todo. Las diferencias semanales en el texto contienen la señal.

Diffing de citas. Compara el set de URLs citadas hoy vs ayer, por prompt y motor. Tres estados importan: estable (citada ayer y hoy), nueva (no ayer, sí hoy) y perdida (ayer sí, hoy no). Las perdidas alertan temprano de que un competidor ocupó tu hueco.

Puntuación de sentimiento y precisión. Cuando la respuesta menciona tu marca, evalúa sentimiento (positivo, neutro, negativo) y precisión (¿la describe bien?). El sentimiento suele ser neutro; más útil es la precisión. Un spot-check que pase el texto por otro modelo con un rubric de “¿es correcto?” detecta errores pronto.

Diagrama de stack de seguimiento con diario manual semanal arriba, barrido automático diario en medio y revisión competitiva trimestral abajo, con flechas que muestran cómo cada capa alimenta la siguiente — La pila de tres capas. El manual define los prompts, la automatización los ejecuta, la revisión competitiva indica si tu cuota de voz sube o baja.

Ninguno de estos patrones requiere infra sofisticada. Un script en Python contra las APIs de OpenAI, Anthropic y Perplexity, un cron y una tabla Postgres bastan para 20 prompts. La complejidad llega al escalar: 200 prompts x 5 motores diarios son 1 000 llamadas/día y el coste sube. Ahí las herramientas dedicadas valen la pena.

Comparativa de herramientas de tracking

El mercado de herramientas para menciones en IA tiene unos 18 meses. Cinco criterios importan al elegir stack.

Herramienta	Motores cubiertos	Diffing de citas	Sentimiento / precisión	Vista competitiva	Ideal para
SEOJuice AI Visibility Checker	ChatGPT, Perplexity, Claude, Google AI Mode, Gemini	Sí	Sentimiento sí, precisión vía rubric	Sí, side-by-side	Equipos SEO que integran IA en su panel
Profound	ChatGPT, Perplexity, Claude, Google AI	Sí	Sí	Sí (Share of Voice)	Equipos enterprise con 500+ prompts
Otterly	ChatGPT, Bing Chat, Perplexity, Google AI	Sí	Solo sentimiento	Sí	Equipos de marca mid-market
AthenaHQ	ChatGPT, Perplexity, Claude, Gemini	Sí	Sí	Sí	Agencias con múltiples clientes
Diario manual de prompts	Todos, manual	A mano	A mano	A mano	Validar prompts antes de automatizar; control de realidad continuo

Dato a destacar: los motores cambian. El análisis de Profound sobre una actualización 2026 de ChatGPT fue claro:

«La visibilidad promedio cayó 31 % y más del 85 % de las marcas vieron descensos.» — Ralfi Berk, Josh Blyskal y Sartaj Rajpal, Profound, «ChatGPT's Entity Update»

Un 31 % de caída rompe sets de prompts frágiles. Elige herramienta que gestione versiones de modelo o constrúyelo. Si asumes prompts constantes, pasarás semanas depurando “caídas” que en realidad son updates.

La línea build vs buy está en ~50 prompts. Por debajo, Python + Google Sheet gana a la mayoría de herramientas porque iteras rápido. Por encima, conviene un proveedor que resuelva storage, dashboard y rate limits, para que te concentres en las acciones de contenido. En ambos casos, prefiere un tracker de visibilidad en IA dedicado antes que adaptar una plataforma SEO clásica; los datos son muy distintos.

Lo que AI Overviews se equivoca sobre el tracking de citas

Busca “cómo rastrear menciones de marca en ChatGPT” y el AI Overview dirá que uses Google Alerts. No es incorrecto, solo inútil: Google Alerts indexa páginas web, no respuestas de IA, así que nunca ve una cita de ChatGPT. Sugerirá Brand24 o Mention; excelentes para el open web, pero tampoco ven respuestas de IA salvo que tengan producto aparte.

Tres conceptos erróneos comunes en AI Overviews:

«Rastrea tu ranking en ChatGPT». ChatGPT no tiene rankings, tiene conjuntos de citas que cambian por consulta, sesión y versión de modelo. El marco de “ranking” es el equivocado. Mide cuota de citas, no posición.

«Usa la misma lista de keywords que para SEO». Las keywords no son prompts. Una keyword es “mejor CRM para startups”. Un prompt es “Estoy montando un SaaS B2B con 12 personas, ¿qué CRM debería elegir?”. Los prompts reales son más largos, contextuales y generan citas distintas. Si reutilizas tu lista SEO tal cual, perderás los prompts que importan.

«Monitorea menciones en IA mensualmente». Mensual es lento. Los conjuntos de citas cambian a diario o incluso por hora dentro de una versión. No detectarás pérdidas de cita con cadencia mensual. Diario es el mínimo; revisión semanal de datos diarios es el punto óptimo.

El problema de fondo es que AI Overviews resume la sabiduría SEO convencional, y en tracking de IA esa sabiduría va 12 meses atrasada. El Overview es indicador rezagado, no líder.

Despliegue de 4 semanas para un equipo pequeño

Si partes de cero, el primer mes es crítico. Distribuye el trabajo así.

Semana 1: auditoría manual. Elige tus 15-20 prompts. Ejecútalos una vez en los cinco motores. Crea la hoja base. Anota tres cosas que no sabías: un competidor recurrente, una respuesta errónea sobre tu categoría, un prompt sin citas de tu sector.

Semana 2: elige motor líder. Evita rastrear todo a la vez. Para la mayoría de SaaS y B2B, Perplexity es el arranque: mayor densidad de citas, formato más estable, fácil de automatizar. Configura ejecuciones diarias de tus 20 prompts en Perplexity. Guarda respuestas y URLs.

Semana 3: añade ChatGPT y Claude. Con Perplexity estable, integra los otros dos. ChatGPT primero por volumen, Claude después por calidad. Omite AI Mode y Gemini por ahora; sin API pública son menos fiables.

Semana 4: redacta la plantilla de reporte. Lo difícil no es recoger datos sino crear un resumen semanal de una página que genere acción. Debe responder: qué prompts ganaron citas, cuáles las perdieron, cómo va tu cuota vs tres competidores, qué intervención de contenido harás la próxima semana.

Plantilla de reporte semanal de menciones IA en una página con cuatro cuadrantes: citas ganadas, perdidas, share of voice vs competidores e intervención recomendada — La plantilla semanal. Cuatro cuadrantes, una página. Si no cabe, nadie la leerá.

Tras la semana 4 tienes un programa operativo. Escalar es directo: más prompts, más motores, sentimiento más profundo, tests A/B de contenido vs citas.

Qué hacer de verdad con los datos

Monitorizar sin cambios de contenido es teatro. Hay que cerrar el loop.

Tres patrones de intervención funcionan. El “rescate de cita perdida”: cuando un prompt que te citaba deja de hacerlo, localiza la nueva página citada y detecta qué aporta que tú no. Suele ser un dato, tabla comparativa o update reciente. Mejora tu página, espera una semana, re-chequea. Vemos retornar la cita en ~50 % de los casos en 7-14 días.

El patrón “desplazar competidor”: prompts donde cita a un competidor y a ti no, pero su contenido es flojo. Una página citada por falta de algo mejor puede ser desplazada publicando algo superior. Es el trabajo IA de mayor retorno que muchos ignoran porque exige leer citas de competidores.

El patrón “categoría sin citar”: prompts donde la respuesta cubre bien tu categoría pero no cita a nadie conocido. Tema con cobertura autoritativa escasa: quien publique la referencia canónica suele captar cuota desproporcionada cuando se re-entrena el modelo. Guías complementarias sobre optimizar para citas en AI Overviews y cómo el multisource SEO consigue que la IA recoja tu marca describen el contenido que gana citas; el programa de tracking dice dónde aplicarlo.

Si quieres una lectura externa sobre si tu marca es citable antes de montar el programa, el artículo de metodología de auditoría de visibilidad en IA recorre una versión de un día de la auditoría manual.

Preguntas frecuentes

¿Con qué frecuencia actualizan las IA sus fuentes de cita? ChatGPT y Perplexity refrescan prácticamente por consulta porque usan búsqueda web en vivo; el set puede cambiar en minutos. Gemini y AI Mode también son live. Las citas de Claude vía web search igual. Los pesos del modelo cambian cada pocos meses, pero las fuentes recuperadas se mueven mucho antes.

¿Puedo rastrear menciones IA sin una API para cada motor? Parcialmente. Perplexity, OpenAI y Anthropic ofrecen APIs de pago. Google AI Mode no tiene API pública para chat, así que el tracking se hace vía scraping. La mayoría arranca con APIs de ChatGPT, Claude y Perplexity y añade Google vía proveedor.

¿Las IA tiran de mis rankings en Google o de otro lado? De ambos. Perplexity tiene su propio crawler; ChatGPT usa el índice de Bing; Claude su propia infraestructura; Google AI Mode y Gemini usan el índice de Google más Knowledge Graph. Rankear en Google ayuda en AI Mode y Gemini, menos en ChatGPT y casi nada en Perplexity.

¿Cuál es una tasa de cita realista? Depende de la categoría. Para prompts con marca, 80-100 % es alcanzable. Para prompts de categoría, incluso marcas fuertes rondan 20-40 %. Más de 40 % en nicho competitivo es excelente.

¿LLMs.txt o schema marcan diferencia? Schema ayuda a AI Mode y AI Overviews porque usan Knowledge Graph. LLMs.txt tiene evidencia mixta. El factor clave es contenido autoritativo claro, bien estructurado y reciente.

¿En qué se diferencia esto del social listening? Las herramientas de social listening (Brand24, Mention, Sprinklr) rastrean web abierta y redes sociales. El tracking IA inspecciona respuestas dentro de chats, invisibles para esas herramientas. Ambos son necesarios; ninguno reemplaza al otro.

Our powerful suite of automation tools for SEO

Learn, discover, and get inspired by our content