I dati dell’user-agent aiutano a distinguere i crawler di ricerca reali dai bot falsificati, a dare priorità alle diagnosi di scansione (crawl) e a controllare come accedono al tuo sito i diversi client.
Un user-agent è l’identificativo inviato in una richiesta HTTP che indica al tuo server quale client sta effettuando la richiesta, da Chrome a Googlebot fino a GPTBot. In ambito SEO è importante perché i dati dell’user-agent guidano la verifica dei bot, l’analisi della scansione, il targeting dei robots e la gestione lato server—ma la stringa da sola non è affidabile.
User-agent è l’intestazione (header) della richiesta HTTP che identifica il client che effettua la richiesta. In ottica SEO è importante perché ti aiuta a distinguere Googlebot da Chrome, AhrefsBot da scraper casuali e l’attività di crawling legittima dal traffico di bassa qualità che spreca risorse del server.
La parte importante: la stringa è utile, ma è facile da falsificare. Considerala prima un indizio, non una prova.
I dati dell’user-agent sono la base dell’analisi seria dei file di log. In Screaming Frog Log File Analyser, Splunk, BigQuery o anche in un export ripulito importato in Looker Studio, li usi per segmentare l’attività di crawling per tipologia di bot e per directory. Questo ti dice se Googlebot sta dedicando il 60% dei suoi hit agli URL con filtri e faccette, se Bingbot è bloccato in catene di redirect oppure se GPTBot sta “martellando” pagine che non vuoi vengano usate per l’addestramento.
Influisce anche sull’implementazione. Le direttive di robots.txt sono specifiche per user-agent. Lo sono anche molte regole di CDN e WAF in Cloudflare o Akamai. Se vuoi rallentare AhrefsBot per preservare la capacità dell’origin durante le ore di picco, oppure bloccare un crawler AI da una knowledge base privata, l’abbinamento degli user-agent è il punto di partenza.
L’user-agent non è un fattore di ranking. Google non posiziona meglio le pagine perché restituiscono qualcosa di “speciale” a un user-agent da crawler. E valgono ancora le regole sul cloaking. Se serv i contenuti sostanzialmente diversi a Googlebot rispetto a quelli che vedono gli utenti, non è una mossa di technical SEO “furba”: è un rischio di policy.
La documentazione di Google è coerente su questo da anni e John Mueller di Google ha ribadito più volte che l’identificazione dei bot non dovrebbe essere usata come scusa per mostrare ai motori di ricerca un contenuto primario diverso.
Questa è l’avvertenza che molti team ignorano: il reporting sugli user-agent è caotico. I bot si spoofano a vicenda. Alcuni strumenti ruotano le stringhe. Una parte del traffico passa attraverso infrastrutture condivise che rendono l’attribuzione poco chiara. Anche la verifica di Googlebot può essere gestita male se il tuo team si basa su liste IP vecchie invece che su verifiche live.
Inoltre, l’analisi degli user-agent senza file di log è debole. Google Search Console mostra statistiche di crawling, ma non lo stesso livello di dettaglio richiesta-per-richiesta che ottieni dai log grezzi. Ahrefs, Semrush e Moz possono dirti qualcosa sui loro crawler, non su ciò che ha realmente colpito il tuo server.
Usa i dati dell’user-agent per diagnosi e controllo. Non trattarli come verità assoluta senza una verifica.
Destina la crawl equity ai template ad alto margine, riduci …
La PAA si colloca tra i featured snippet e la …
Elimina la cannibalizzazione dei template per consolidare la link equity, …
Proteggi il crawl budget, consolida la link equity e supera …
Le URL basate su hash possono compromettere l’indicizzazione, sprecare l’effort …
Quando gli URL dei filtri si moltiplicano più velocemente della …
Get expert SEO insights and automated optimizations with our platform.
Get Started Free