Les données d’agent utilisateur (user-agent) permettent de distinguer les vrais robots d’exploration des moteurs de recherche des bots usurpés, de prioriser les diagnostics d’exploration (crawl) et de contrôler la manière dont différents clients accèdent à votre site.
Un user-agent est l’identifiant envoyé dans une requête HTTP qui indique à votre serveur quel client effectue la requête, de Chrome à Googlebot en passant par GPTBot. En SEO, c’est important, car les données d’user-agent alimentent la vérification des bots, l’analyse du crawl, le ciblage des robots et le traitement côté serveur — mais la chaîne seule n’est pas fiable.
User-agent est l’en-tête HTTP de requête qui identifie le client à l’origine de la requête. En SEO, c’est important car cela vous aide à distinguer Googlebot de Chrome, AhrefsBot de robots pirates aléatoires, et l’activité de crawl légitime du trafic indésirable qui gaspille des ressources serveur.
L’élément clé : la chaîne est utile, mais elle est facile à falsifier. Considérez-la d’abord comme un indice, pas comme une preuve.
Les données d’user-agent constituent le socle d’une analyse sérieuse des fichiers de logs. Dans Screaming Frog Log File Analyser, Splunk, BigQuery, ou même un export nettoyé vers Looker Studio, vous les utilisez pour segmenter l’activité de crawl par type de bot et par répertoire. Cela permet de savoir si Googlebot consacre 60 % de ses requêtes à des URL paramétrées (faceted URLs), si Bingbot est bloqué dans des chaînes de redirections, ou si GPTBot s’acharne sur des pages que vous ne souhaitez pas utiliser pour l’entraînement.
Cela influe aussi sur la mise en œuvre. Les directives de robots.txt sont spécifiques à l’user-agent. Il en va de même pour de nombreuses règles de CDN et de WAF dans Cloudflare ou Akamai. Si vous voulez ralentir AhrefsBot pour préserver la capacité de l’origine pendant les heures de pointe, ou bloquer un crawler IA provenant d’une base de connaissances privée, le matching d’user-agent est le point de départ.
L’user-agent n’est pas un facteur de classement. Google ne classe pas mieux des pages simplement parce qu’elles renvoient quelque chose de particulier à un user-agent de crawler. Et les règles de cloaking continuent de s’appliquer. Si vous servez à Googlebot un contenu sensiblement différent de ce que voient les utilisateurs, ce n’est pas un « tour » technique SEO malin. C’est un risque de politique.
La documentation de Google est constante sur ce point depuis des années, et John Mueller (Google) a à maintes reprises confirmé que l’identification des robots ne doit pas servir d’excuse pour afficher aux moteurs de recherche un contenu primaire différent.
Voici le point de vigilance que la plupart des équipes ignorent : le reporting des user-agents est difficile. Les bots s’usurpent. Certains outils font tourner les chaînes. Une partie du trafic passe par une infrastructure partagée, ce qui rend l’attribution bruyante. Même la vérification de Googlebot peut être mal gérée si votre équipe s’appuie sur des listes IP obsolètes au lieu d’une vérification en direct.
De plus, l’analyse des user-agents sans fichiers de logs est limitée. Google Search Console fournit des statistiques de crawl, mais pas le même niveau de détails requête par requête que des logs bruts. Ahrefs, Semrush et Moz peuvent vous renseigner sur leurs propres crawlers, pas sur ce qui a réellement touché votre serveur.
Utilisez les données d’user-agent pour le diagnostic et le contrôle. Ne les considérez pas comme une vérité établie sans vérification.
La limite pratique au-delà de laquelle des modèles de pages …
Tirez parti de la Template Entropy pour révéler le boilerplate …
Un cadre pratique pour contrôler le nombre d’URLs que chaque …
Comment améliorer la découvrabilité des images pour Google Lens, Google …
Réduisez la saturation des templates, récupérez le budget de crawl …
Le PAA se situe entre les featured snippets et la …
Get expert SEO insights and automated optimizations with our platform.
Get Started Free