Où les LLM vont-ils réellement chercher votre marque quand les utilisateurs ne googlisent plus

TL;DR : Lorsqu’un utilisateur demande à ChatGPT, Perplexity ou au mode IA de Google « que devrais-je utiliser pour X », la réponse ne provient pas du top 10 de Google. Elle est tirée d’autres espaces — Reddit, YouTube, podcasts, Hacker News, Stack Overflow, forums spécialisés — que le modèle a ingérés pendant l’entraînement et qu’il réutilise à l’inférence. Si votre marque est absente de ces espaces, le modèle ne peut pas la faire remonter, et être premier sur Google n’y changera rien. Le moyen le plus rapide de mesurer l’écart est un audit d’une soirée : choisissez trois requêtes sur lesquelles vous aimeriez apparaître, posez le même prompt à trois LLM, notez quels concurrents sont cités et quelles sources le modèle privilégie. La plupart des équipes découvrent avec surprise quel espace domine leur catégorie ; l’écart, lui, étonne rarement. La priorité d’investissement n’est pas « faire tout partout », mais concentrer les efforts sur l’espace où l’audit montre le plus grand fossé entre votre présence et celle des concurrents.

La question qui revient sans cesse

Deux responsables m’ont posé la même question la même semaine. Le premier dirige un SaaS B2B, occupe la première place sur Google pour son mot-clé principal et bénéficie d’un trafic organique régulier. Le second gère une marque grand public dans une catégorie encombrée, se classe troisième ou quatrième sur Google et perd des parts de marché au profit d’un concurrent dont les positions Google sont objectivement moins bonnes. Tous deux me demandent une variante de la même chose : « Nous performons correctement sur Google, mais ChatGPT recommande systématiquement le concurrent. Que se passe-t-il ? »

J’ai passé les six derniers mois à creuser le sujet pour des clients et pour vadimkravcenko.com, et la réponse courte est que le classement Google et les citations LLM reposent sur deux graphes différents. Le graphe de Google est constitué des liens et des signaux autour de l’URL. Le graphe du LLM est un graphe de citations construit à partir d’une autre série de sources : des lieux où les humains parlent de marques sans que la marque ne contrôle la conversation. Fils Reddit, vidéos YouTube, épisodes de podcast, soumissions Hacker News, réponses Stack Overflow. Le modèle a appris dessus durant l’entraînement et continue de s’y référer à l’inférence. Si vous êtes absent de ce graphe de citations, votre position Google est quasi invisible pour le LLM, peu importe son rang.

Cet article fournit la carte et l’audit. La carte nomme les cinq espaces hors site qui véhiculent aujourd’hui le signal, avec une idée approximative de leur poids selon le type de requête. L’audit est la méthode « une soirée » que j’utilise pour localiser l’écart d’une marque donnée. La section priorisation d’investissement boucle la boucle : si l’audit renvoie X, investissez d’abord dans Y, pas dans les cinq en même temps.

Le graphe de citations n’est pas le graphe de liens de Google

Rand Fishkin l’a exprimé de manière très directe dans un article SparkToro sur la présence dans les réponses IA, en pointant les deux espaces qui « semblent toujours avoir un poids particulier dans les réponses IA » :

Reddit et YouTube (qui semblent toujours avoir un poids particulier dans les réponses IA).

La lecture de Fishkin correspond à ce que j’observe en audit client, avec deux espaces supplémentaires : les podcasts et les forums développeurs. La raison est mécanique. Les principaux LLM s’entraînent sur Common Crawl, sur des accords de licence (l’accord Reddit d’OpenAI, celui de Google, tous deux signés en 2024) et sur du contenu que les fournisseurs récupèrent eux-mêmes (transcriptions YouTube, transcriptions de podcasts via Apple / Spotify / Listennotes, contenu de Stack Overflow). À l’inférence, deux systèmes coopèrent : la mémoire paramétrique (ce qu’a appris le modèle) et la couche de retrieval (un index de recherche live sur un jeu de sources similaire, enrichi pour la fraîcheur). Les deux s’appuient sur les mêmes espaces. Les deux s’appuient moins sur le web ouvert que Google, parce que le web ouvert est plus bruyant et que les sources « citation grade » offrent un meilleur signal par token.

Le grand absent de ce graphe est X. Les tweets d’avant 2023 figurent dans Common Crawl. Le contenu X post-2023 est derrière un mur : pas d’accès Common Crawl, pas d’accord OpenAI, pas d’accord Google à la date de rédaction. Les mentions de marque natives à X pèsent donc peu dans les citations LLM actuelles. Les équipes qui misent sur X pour la découverte via LLM frappent une porte close. Cela peut changer ; les données X pourraient s’ouvrir demain. Aujourd’hui, ce n’est pas le cas.

Ce que chaque espace véhicule réellement

Cinq espaces concentrent l’essentiel du poids en 2026. Leur poids relatif varie selon le type de requête ; c’est tout l’intérêt de la carte.

Carte des cinq espaces hors site — Reddit, YouTube, podcasts, Hacker News, Stack Overflow — avec des barres de poids approximatives par catégorie de requête couvrant SaaS, B2B, consommation et intention locale — Les cinq espaces hors site par catégorie de requête. Barres issues d’observations, pas de données d’enquête.

Reddit porte le poids le plus lourd pour les requêtes « meilleur X pour Y » et « Z vaut-il le coup » dans la plupart des catégories. Les accords de licence OpenAI et Google (tous deux 2024) incluent explicitement Reddit. La pertinence du subreddit compte : r/SaaS, r/Entrepreneur, r/marketing sont importants pour le B2B ; r/BuyItForLife et les subs produits pour le B2C. Une mention dans un petit subreddit mais pertinent pèse plus qu’une mention dans un subreddit à fort trafic mais hors sujet.

Les transcriptions YouTube sont aspirées et indexées. Fortement citées pour les requêtes « comment faire X » et « X vs Y ». L’unité citée est la transcription vidéo précise, pas la chaîne. Une seule vidéo de comparaison peut générer des citations sur des dizaines de requêtes connexes pendant un an. La présence de la marque au niveau de la chaîne aide le modèle à se forger une image sur la durée ; la couverture de mots-clés au niveau de la vidéo déclenche des citations spécifiques.

Les transcriptions d’épisodes de podcast alimentent à la fois les données d’entraînement et les index de retrieval. Elles sont sur-citées pour les requêtes d’expertise B2B du type « qui est expert de X » ou « quelle est la bonne approche pour Y ». Le signal est ici la validation tierce récurrente. Un·e fondateur·rice invité·e sur douze podcasts pertinents en deux ans apparaît très différemment aux yeux du modèle qu’une personne jamais invitée.

Hacker News est une source à fort signal pour les sujets techniques et SaaS. L’URL soumise comme les commentaires sont indexés. Fréquence de citation disproportionnée pour les requêtes d’outils développeur et d’infrastructure. Le signal provient de la densité de conversation sur une URL, pas de l’URL en soi. Une soumission qui récolte cinquante commentaires fouillés pèse plus qu’une autre qui obtient cent upvotes sans discussion.

Stack Overflow reste l’autorité pour les questions de code « comment corriger X ». Le poids a diminué après 2024 à mesure que le trafic du site baissait sous la pression des réponses IA, mais pour les requêtes purement code, il reste clé. Les forums thématiques (communautés sectorielles, message boards indépendants, instances Discourse) forment un sixième fourre-tout. Leur poids varie selon la communauté et il n’y a pas de règle générale hors « l’autorité du domaine et la présence récurrente comptent ».

Espace	Ce qu’il véhicule	Types de requêtes dominantes
Reddit	Discussions de recommandation + avis	« meilleur X », « Y vaut-il le coup », « alternatives à X »
YouTube	Tutoriels étape par étape + comparatifs	« comment faire X », « X vs Y », démonstrations d’outils
Podcasts	Signal d’expertise long format	« qui est expert de X », positionnement de services B2B
Hacker News	Densité de conversation technique + SaaS	Requêtes outil développeur + infrastructure
Stack Overflow	Réponses autoritaires spécifiques au code	Questions de code « comment corriger X »
Forums thématiques	Présence récurrente secteur spécifique	Requêtes de niche

Comment le signal passe concrètement de la mention à la citation

Le mécanisme compte parce que le décalage compte. Une mention de marque postée aujourd’hui sur Reddit n’apparaît pas demain dans une réponse ChatGPT. Le signal circule via deux voies à des cadences différentes.

Diagramme du pipeline montrant comment une mention de marque sur Reddit, YouTube ou un podcast entre dans les données d’entraînement LLM, est indexée pour le retrieval et ressort à l’inférence comme source citée — Deux voies parallèles de la mention à la citation : ingestion dans les données d’entraînement (mois) et indexation retrieval (jours à semaines).

La première voie est celle des données d’entraînement. Une mention est aspirée ou licenciée, atterrit dans un corpus d’entraînement, est pondérée lors de l’entraînement puis se retrouve dans la mémoire paramétrique du modèle. Le délai se compte en mois, généralement de six à dix-huit mois entre la mention et la citation. Le signal est durable une fois intégré : une mention de 2023 influence encore une inférence en 2026, mais la voie est lente et favorise la répétition variée plutôt qu’un unique événement.

La seconde voie est le retrieval. Les grands LLM disposent d’une couche d’index de recherche en direct (Perplexity le rend explicite, le mode « browse » de ChatGPT s’en sert aussi, Google AI Mode évidemment). Cette couche indexe le contenu frais plus rapidement, en quelques jours ou semaines, et est interrogée parallèlement à la mémoire paramétrique à l’inférence. Une mention récente peut donc apparaître en quelques semaines par cette voie, mais la citation retrieval est plus liée à l’URL et moins durable que le signal issu de l’entraînement.

Conséquence pratique : la cadence éditoriale importe plus que n’importe quelle mention isolée. Une marque discutée dans quatre fils Reddit, trois vidéos YouTube et deux épisodes de podcast sur un an est perçue différemment par les deux voies qu’une marque mentionnée une seule fois. L’audit que vous allez réaliser lit le tableau cumulatif, pas un instant précis.

L’audit d’une soirée

L’audit est peu coûteux, défendable et c’est la partie de cet article que vous devriez réellement mettre en œuvre avant toute autre chose. La première fois, comptez trois à quatre heures, puis une heure pour chaque réexécution trimestrielle. Cinq étapes.

Organigramme d’audit en cinq étapes : choisir trois requêtes, tester sur trois LLM, consigner les sources citées, lire l’écart, sélectionner un espace d’investissement — L’audit en une image. Trois requêtes, trois moteurs, consignez les citations, choisissez un espace.

Étape 1 : choisissez trois requêtes sur lesquelles vous souhaitez apparaître. Soyez précis. « Meilleur outil de gestion de projet pour une agence distante de cinq personnes » est plus parlant que « bon logiciel de PM » car la requête précise se rapproche de la façon dont un vrai utilisateur interroge un vrai LLM. Choisissez une requête générique (votre graal) et deux requêtes longue traîne (celles que vous pourriez raisonnablement gagner d’abord).

Étape 2 : lancez chaque requête sur ChatGPT, Perplexity et Google AI Mode. Capturez la réponse complète ainsi que les sources citées. Si un moteur ne cite pas de sources par défaut, demandez-lui « sur quelles sources vous êtes-vous basé ? ». La plupart les fournissent sur demande.

Étape 3 : consignez les citations. Pour chaque source citée, notez l’espace concerné (fil Reddit, vidéo YouTube, épisode de podcast, soumission Hacker News, réponse Stack Overflow, page détenue par la marque, article neutre, page d’un concurrent). Le motif qui émerge sur neuf paires réponse-source (trois requêtes × trois moteurs) devient généralement clair en vingt minutes.

Étape 4 : lisez l’écart. Deux lectures comptent. La première : quels espaces dominent le pool de citations pour votre type de requête ? La seconde : quels concurrents sont cités et depuis quels espaces ? Si votre concurrent apparaît dans sept des neuf réponses, cité quatre fois depuis Reddit, l’écart est Reddit. S’il est cité depuis des vidéos YouTube, l’écart est YouTube. La carte en haut de cet article vous dira si le motif de surface cité correspond au motif habituel de la catégorie.

Étape 5 : choisissez UN seul espace dans lequel investir en premier. La tentation est d’investir dans les cinq simultanément. Ne le faites pas. Choisissez l’espace où l’écart entre la présence concurrente et la vôtre est le plus prononcé ET qui correspond au motif habituel de votre catégorie. L’énergie d’investissement diluée sur tous les espaces rapporte moins qu’un effort concentré sur le bon.

Si vous voulez une version plus rigoureuse de cet audit avec un suivi continu, l’article sur la méthodologie d’audit de visibilité IA détaille l’approche longue. Le passage d’une soirée décrit ci-dessus suffit pour une première lecture.

Interpréter l’audit et choisir l’investissement

L’audit révèle un écart de surface. L’étape suivante est l’investissement, différent selon l’espace. Ce que les moteurs IA récompensent n’est pas le ranking, mais la mention récurrente, variée et tierce. Une marque discutée naturellement dans des fils Reddit et des vidéos YouTube comparatives pendant deux ans est perçue tout autrement qu’une marque cantonnée à ses propres pages marketing, quelle que soit leur optimisation.

Le triptyque « récurrente, variée, tierce » est la clé. Les comportements promotionnels sur ces espaces sont plus pénalisés que l’absence. L’investissement qui fonctionne est mérité : contribuer réellement aux discussions Reddit, soutenir les créateurs YouTube pertinents via du sponsoring ou des apparitions, intervenir en tant qu’invité·e dans des podcasts de la catégorie, participer sur Hacker News avec de vraies opinions techniques plutôt que promotionnelles.

Table de décision à deux colonnes pour la priorité d’investissement reliant les résultats d’audit — concurrents cités depuis Reddit, YouTube, podcasts, Hacker News ou Stack Overflow — à la première surface hors site dans laquelle investir — Table de décision pour la priorité d’investissement. Faites correspondre votre résultat d’audit à la première surface dans laquelle investir.

Résultat d’audit	Premier investissement
Concurrents cités dans des fils Reddit, vous absent	Présence organique Reddit dans 3-5 subs pertinents en 6 mois
Concurrents cités dans des vidéos YouTube	Mentions sponsorisées sur des chaînes de la catégorie OU création de chaîne avec cadence mensuelle
Concurrents cités dans des épisodes de podcast	Apparitions invitées sur 6-10 podcasts de la catégorie sur un an
Concurrents cités via des soumissions Hacker News	Articles techniques originaux postés sur HN par des membres de l’équipe avec historique
Concurrents cités via des réponses Stack Overflow	Temps de l’équipe d’ingénierie sur les fils à fort signal de votre catégorie d’outils

Deux notes pratiques tirées des six derniers mois d’observation. Premièrement, le calendrier est d’au moins six mois pour être pris en compte, douze mois pour voir un changement significatif dans les résultats d’audit. Quiconque promet plus rapide vous vend quelque chose. Deuxièmement, l’investissement surface n’est pas une décision d’achat d’outil ; c’est une décision de temps d’équipe. Un écart Reddit ne se comble pas avec un outil Reddit, mais avec une personne crédible dans la catégorie qui consacre deux heures par semaine à participer réellement dans 3-5 subreddits.

Là où ça se complique

La carte à cinq espaces est un instantané de l’état actuel, pas une photo définitive. Trois dynamiques évoluent dessous.

Premièrement, les poids changent avec les données d’entraînement. La prochaine génération de modèles pourrait accorder plus de poids aux podcasts et moins à Reddit, ou basculer vers davantage de retrieval au détriment de la mémoire paramétrique, favorisant ainsi tel espace plutôt qu’un autre. La carte ci-dessus est une lecture mi-2026 ; mi-2027 pourrait donner autre chose.

Deuxièmement, les espaces eux-mêmes évoluent. Le firewall X est récent. L’affaiblissement de Stack Overflow est récent. Bluesky, Threads et Mastodon n’ont encore aucun poids significatif dans les audits que j’ai menés, mais d’ici un an l’un d’eux pourrait surgir. La carte doit être relue tous les trimestres ; la méthode d’audit, elle, reste valide.

Troisièmement, les comportements promotionnels sont détectés et pénalisés plus vite que le signal ne s’accumule. Une marque qui paie une agence Reddit pour semer des posts dans une douzaine de subs en un mois ne voit aucun bénéfice et subit souvent des pénalités : la culture des modérateurs Reddit, l’anti-spam de Reddit et les pipelines d’entraînement LLM repèrent le schéma. L’investissement qui fonctionne est plus lent et plus ennuyeux que ne le promettra n’importe quelle agence.

Ce que cela ne remplace pas

La présence hors site complète l’optimisation on-site, elle ne la remplace pas. Le balisage schema, les données structurées, la hiérarchie claire des pages, le maillage interne et la qualité du contenu que couvrent les volets d’optimisation LLM on-site restent essentiels. Ils rendent la mention de marque interprétable lorsqu’elle survient et garantissent que lorsqu’un lecteur clique depuis une citation LLM vers votre site, la page d’atterrissage renforce le signal plutôt que de le dégrader.

La formulation qui fonctionne pour moi : la présence hors site rend le LLM conscient de vous ; la qualité on-site détermine si cette conscience se transforme en citation plutôt qu’en rejet. Les deux sont nécessaires. La plupart des équipes que j’entends ont sur-investi on-site et sous-investi off-site, car les actions on-site semblent concrètes alors que les actions off-site paraissent relever du marketing. L’article sur l’optimisation search « AI-first » traite de l’on-site ; l’article sur les fondamentaux du SEO piloté par l’IA aborde l’approche conjointe.

Si votre audit révèle un écart de surface

Deux lectures de prochaines actions, selon l’endroit où pointe l’audit.

Si l’écart est large, avec des concurrents cités depuis trois espaces ou plus alors que vous êtes absent de la plupart, l’article sur le pickup multi-source est la bonne suite. Il présente le cadre plus large de la présence multi-plateforme sans la carte surface par surface. Si l’écart est étroit et concentré sur un seul espace, consultez les approfondissements spécifiques : le SEO podcast pour l’option podcast, le SEO vidéo pour YouTube, la visibilité marque-dans-ChatGPT pour l’angle plus restreint, et l’article sur le GEO « mentions in AI » pour la logique conceptuelle sous-jacente.

L’article dont vous n’avez pas besoin est celui qui promet « une optimisation ChatGPT en 30 jours ». L’audit est l’outil. Réalisez-le, lisez l’écart, choisissez un espace, engagez une année d’efforts d’équipe ciblés, puis réauditez dans trois mois. Les espaces continueront d’évoluer ; la méthode continuera de fonctionner.

Our powerful suite of automation tools for SEO

Learn, discover, and get inspired by our content

Où les LLM trouvent réellement votre marque lorsque les internautes ne cherchent plus sur Google