In sintesi. Googlebot è il nome ombrello dei crawler che Google utilizza per scoprire, renderizzare e indicizzare i contenuti web. Non è un solo bot: è una famiglia. Il membro più importante è Googlebot Smartphone, che scansiona la versione mobile del tuo sito usando un Chromium headless aggiornato all’ultima release stabile di Chrome. Crawling, renderizzazione e indicizzazione sono tre fasi separate che possono avvenire a ore o giorni di distanza. La maggior parte dei problemi “Googlebot non vede la mia pagina” nasce da JavaScript che fallisce silenziosamente nella fase di render, non nel crawl. Il resto di questa guida analizza la famiglia di bot, la pipeline in tre fasi, come verificare una richiesta Googlebot autentica, le domande più comuni su robots.txt e crawl budget e come Googlebot si confronta oggi con Bingbot, GPTBot, PerplexityBot e ClaudeBot.
Googlebot è il programma che Google usa per recuperare le pagine web così da poterle aggiungere all’indice di Google. Quando pubblichi un nuovo post e alla fine appare nei risultati di ricerca, il percorso inizia con Googlebot che richiede l’URL, scarica l’HTML, esegue il JavaScript e inoltra il risultato al sistema di indicizzazione di Google. Senza Googlebot, per la Ricerca Google le tue pagine non esistono.
Due precisazioni da fare subito. Primo, “Googlebot” viene talvolta usato in modo generico per indicare “qualsiasi crawler Google”. In senso stretto, Googlebot è il crawler che recupera le pagine per l’indice principale della Ricerca Google. Esistono altri crawler Google (AdsBot per i controlli delle landing page, Storebot per Shopping, Google-Extended per l’opt-out del training IA) ma sono bot diversi con scopi e regole differenti. Sii preciso su quale intendi quando fai debug.
Secondo, Googlebot non è uno scraper. Uno scraper prende tutto quello che può dalla tua pagina senza permesso e usa i dati come vuole. Googlebot legge il tuo robots.txt prima di ogni crawl, rispetta i meta tag noindex, si autoregola se il server rallenta e si identifica negli header così da poter verificare la provenienza. Se vedi nei log un presunto “Googlebot” che martella il server senza tregua, quasi certamente non è il vero Googlebot ma qualcuno che ne imita lo user-agent.
Il bot di cui devi occuparti più spesso è Googlebot Smartphone, che dalla fine del mobile-first indexing (metà 2023) scansiona di default la versione mobile del tuo sito. Le scansioni desktop avvengono ancora, ma ora sono secondarie. Ecco l’albero genealogico con le stringhe user-agent ufficiali:
| Crawler | User-agent string (excerpt) | Funzione |
|---|---|---|
| Googlebot Smartphone | Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X...) ... Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) | Crawler principale per la versione mobile del tuo sito. Responsabile della maggior parte dell’indicizzazione. |
| Googlebot Desktop | Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36 | Scansiona le varianti desktop. Quota minore del traffico di crawl dopo il mobile-first. |
| Googlebot Image | Googlebot-Image/1.0 | Recupera le immagini per Google Images. Bot diverso, regole diverse. |
| Googlebot Video | Googlebot-Video/1.0 | Recupera i file video per Google Video. |
| Googlebot News | No UA distinto — usa varie stringhe Googlebot | Scansiona per Google News. L’identificazione richiede il controllo dell’IP, non dello UA. |
| Google-InspectionTool | Mozilla/5.0 (compatible; Google-InspectionTool/1.0;) | Si attiva quando utilizzi lo strumento di ispezione URL in Search Console. Salta parte della cache. |
Il segnaposto W.X.Y.Z negli user-agent Smartphone e Desktop non è letterale. Google inserisce al volo la reale versione di Chromium, che avanza seguendo la release stabile più recente di Chrome. Al momento della stesura, il renderer di Googlebot è a poche settimane dalla versione che Chrome distribuisce al pubblico. Se il tuo sito richiede una feature JS che necessita di Chrome 130+, probabilmente Googlebot la supporta. Se richiede qualcosa non ancora rilasciato, Googlebot no. È questo il dettaglio che molti dibattiti “il mio JS è troppo moderno per Googlebot?” ignorano: il renderer del bot è attuale, non bloccato a Chrome 41 come anni fa.
Il lavoro di Googlebot si divide in tre fasi distinte. Non avvengono in simultanea e un ritardo o un errore in una qualunque di esse può tenere la tua pagina fuori dai risultati di ricerca. La documentazione di Google lo riassume chiaramente: "Google elabora le web app JavaScript in tre fasi principali: 1. Crawling 2. Rendering 3. Indexing." Capire i confini di queste fasi è ciò che distingue gli SEO capaci di fare debug da chi va a tentoni.
Googlebot prende un URL dalla sua coda, invia una richiesta HTTP e riceve la risposta HTML grezza. Finisce qui. Non viene eseguito JavaScript, né analizzato contenuto renderizzato. Il crawler legge lo status code, gli header (caching, X-Robots-Tag, redirect) e il corpo HTML. Gli URL da scansionare arrivano da sitemap XML, link interni di pagine già indicizzate, link esterni e invii diretti tramite lo strumento di ispezione URL.
Se l’HTML grezzo contiene tutto ciò che va indicizzato (SSR classico), Googlebot può procedere. Se invece è quasi vuoto e il contenuto viene iniettato da JavaScript, la pagina passa alla fase di render. È qui che Googlebot legge anche robots.txt: se un URL è disallow, non lo recupera nemmeno.
Se una pagina necessita di JavaScript per mostrare il contenuto, Googlebot passa l’URL al Web Rendering Service (WRS). Il WRS è un Chromium headless che carica la pagina, esegue gli script e produce l’HTML renderizzato finale. Come dice Google: "Una volta che le risorse di Google lo permettono, un headless Chromium renderizza la pagina ed esegue il JavaScript."
La frase “una volta che le risorse di Google lo permettono” pesa molto. Il rendering è costoso, quindi Google lo mette in coda. Le pagine possono restare in coda per secondi, ore o, nei casi peggiori, giorni. La guida ufficiale è volutamente vaga: "La pagina può rimanere in questa coda per alcuni secondi, ma può volerci più tempo."
Questo ritardo è il problema pratico principale dei siti renderizzati via JS. Il post può essere scansionato in pochi minuti, ma non renderizzato per 24 ore; il contenuto quindi non appare nei risultati fino al giorno dopo. Le pagine SSR saltano del tutto la coda.
Una volta ottenuto l’HTML finale (dal crawl o dal WRS), il sistema di indicizzazione analizza il documento, estrae il testo, classifica il contenuto, valuta i segnali di ranking e memorizza il tutto nell’indice di Google. Da questo momento la pagina può comparire nei risultati. Anche l’indicizzazione richiede tempo (minuti o ore), ma il lavoro di Googlebot per quell’URL è concluso.
La maggior parte dei problemi “Googlebot non vede il mio contenuto” riguarda il render, non il crawl. Il crawl quasi sempre riesce; la pagina semplicemente non viene renderizzata come previsto. Ecco i sei errori più frequenti che vedo sui clienti SEOJuice, in ordine decrescente di frequenza:
loading="lazy" nativo o Intersection Observer compatibile con WRS. Librerie che attendono eventi di scroll falliscono perché non c’è scroll. Usa loading="lazy" per le immagini; per i componenti, renderizza server-side o adotta un framework con SSR/hydration.googlebot.json sul sito Google Developers) prima di attivare “block bots”. Verifica con lo strumento di ispezione URL dopo ogni modifica WAF.robots.txt blocca /static/ o /assets/, il WRS non può recuperare JS e CSS e la pagina si renderizza senza stili o con JS rotto. Consenti a Googlebot di scansionare i percorsi degli asset statici.La stringa user-agent di Googlebot è facile da imitare. Chiunque può inviare una richiesta che dichiara di essere Googlebot. Le vere richieste arrivano da IP di proprietà Google pubblicati, e l’unico modo affidabile per verificarle è fare un reverse DNS seguito da un forward. In pratica:
.googlebot.com o .google.com.Da terminale: host 66.249.66.1 poi host crawl-66-249-66-1.googlebot.com. Se gestisci un sito ad alto traffico, automatizza il controllo nei log: scoprirai che molti “picchi di crawl Googlebot” sono scraper che imitano lo user-agent.
Google lo chiama crawl budget. Sotto ~10.000 URL raramente è un vincolo: Googlebot scansiona tutto ciò che conta. Diventa critico solo su siti con milioni di URL, ricerca a faccette o duplicati che sprecano crawl. I due fattori chiave sono crawl rate (quanto il server regge senza errori) e crawl demand (popolarità e frequenza di aggiornamento dell’URL).
Sì, se su un sito grande consumano crawl budget. Blocca ricerca a faccette, risultati di ricerca interna, pagine paginate oltre la 5, varianti con ID di sessione e endpoint admin. Usa robots.txt per bloccare il crawl e noindex per bloccare l’indicizzazione: fanno cose diverse.
Inviandola nello strumento di ispezione URL in Search Console. Attiva un crawl fuori banda (Google-InspectionTool) più rapido della coda standard. Collega la nuova pagina da una pagina autorevole già indicizzata per farla trovare anche nel prossimo crawl regolare.
Perché un URL di staging/dev è trapelato online (link accidentale, risultato di ricerca, issue tracker aperto) e Googlebot segue i link. Blocca l’intero dominio di staging con Disallow: / in robots.txt e, se serve, aggiungi autenticazione basic.
Il debug sistematico prevede quattro controlli in sequenza finché uno non chiarisce il problema.
Controllo 1: Ispezione URL in Search Console. Incolla l’URL. Lo strumento indica se Google lo ha scansionato/indicizzato, quando e mostra “Visualizza pagina testata”. Se l’HTML renderizzato manca di contenuto, il problema è nel render. Se lo status non è 200, è nel crawl. Risolve il 70% dei casi.
Controllo 2: curl con lo user-agent Googlebot. curl -A "Mozilla/5.0 ... Googlebot/2.1 ..." https://iltuosito.com/percorso. Se il server restituisce output diverso a Googlebot rispetto a un browser, lo vedi qui. Cloaking intenzionale o accidentale è una causa comune di problemi di indicizzazione.
Controllo 3: audit di robots.txt e meta tag. Visita /robots.txt. Verifica che l’URL non sia bloccato. Poi cerca noindex nel sorgente. Spesso il colpevole è un noindex rimasto da staging.
Controllo 4: analisi log server. Filtra i log per richieste Googlebot verificate negli ultimi 30 giorni. Se l’URL non appare mai, Googlebot non lo conosce: aggiungilo a sitemap e linkalo. Se appare ma restituisce 4xx/5xx, risolvi l’errore. SEOJuice automatizza questa analisi e avvisa se un URL chiave sparisce dal traffico Googlebot reale.
Googlebot non è più l’unico crawler che conta. Ecco il confronto principale al 2026:
| Crawler | Operator | Esegue JS? | Utilizzo |
|---|---|---|---|
| Googlebot | Sì (Chromium recente) | Indice Ricerca Google | |
| Bingbot | Microsoft | Sì (Edge / Chromium) | Indice Bing, grounding Copilot |
| GPTBot | OpenAI | Limitato / no SPA | Dati training ChatGPT |
| OAI-SearchBot | OpenAI | Limitato | Recupero ricerca ChatGPT |
| PerplexityBot | Perplexity | Limitato | Motore risposte Perplexity |
| ClaudeBot | Anthropic | Limitato | Training e retrieval Claude |
| Google-Extended | N/D (solo segnale) | Flag opt-out training Gemini |
Due implicazioni pratiche. Primo: i crawler IA hanno render JS più deboli di Googlebot. Se il contenuto dipende dal client-side, potresti posizionarti bene in Google ma essere invisibile a ChatGPT, Perplexity e Claude: vedranno una pagina vuota. La soluzione è la stessa di Googlebot: SSR o prerender. Il nostro AI Visibility Checker gratuito verifica in meno di un minuto se i maggiori motori IA vedono il tuo sito. Secondo: ogni crawler IA ha direttive robots.txt proprie. User-agent: GPTBot blocca il training di OpenAI, User-agent: Google-Extended blocca quello di Gemini, mentre User-agent: Googlebot resta separato. Vuoi comparire in Ricerca Google ma non nel training IA? Imposta regole distinte.
Googlebot è il crawler che Google usa per scoprire e scaricare pagine web da indicizzare e mostrare nei risultati. È una famiglia di crawler (Smartphone, Desktop, Image, Video, News) con stringhe UA e scopi diversi, ma di solito “Googlebot” indica Googlebot Smartphone, il crawler primario dal 2023 dopo il mobile-first indexing.
Sì. Il Web Rendering Service (WRS) è un Chromium headless che esegue JS sulle pagine che lo richiedono. La versione di Chromium segue le release stabili, quindi le feature moderne funzionano in genere. Il problema è la coda di render: anche con JS corretto, il render può avvenire secondi, ore o giorni dopo il crawl. Le pagine SSR saltano la coda.
Esegui un reverse DNS sull’IP: l’hostname deve terminare con .googlebot.com o .google.com. Poi un forward DNS su quell’hostname: deve tornare allo stesso IP. Se uno step fallisce, è spoof. Lo user-agent non basta: chiunque può falsificarlo.
Sì. Aggiungi in robots.txt User-agent: Googlebot seguito da Disallow: /. Blocchi il crawl, quindi la pagina non verrà indicizzata né mostrata. Per maggiore granularità, usa meta noindex sulle singole pagine o blocca percorsi specifici; ma non bloccare CSS/JS necessari al render.
No. Sono crawler separati gestiti da aziende diverse e con scopi diversi. Googlebot indicizza per la Ricerca Google, GPTBot raccoglie dati per ChatGPT, PerplexityBot per il motore Perplexity. Ognuno ha UA e regole robots.txt proprie. Puoi consentire Googlebot e bloccare GPTBot, o viceversa.
Cause comuni: la pagina non è linkata da URL indicizzati, restituisce status ≠ 200, ha noindex, è bloccata da robots.txt o dipende da JS che il WRS non ha ancora renderizzato. Usa lo strumento di ispezione URL per diagnosticare; “Visualizza pagina testata” mostra cosa ha visto Googlebot. Le nuove pagine vengono di solito indicizzate in poche ore/giorni, più lentamente se il sito ha bassa frequenza di crawl.
Sì, ma li associa all’URL dell’iframe, non alla pagina che lo incorpora. Se il contenuto principale è in un iframe, dividi il segnale di indicizzazione tra due URL e indebolisci entrambi. Evitalo per contenuti da associare alla pagina madre.
Ricorda tre cose. Primo: è una famiglia di crawler, e Googlebot Smartphone è quello che conta dopo il mobile-first indexing. Secondo: la pipeline è crawl, render, index; la maggior parte dei problemi è nel render, motivo per cui “Visualizza pagina testata” è lo strumento di debug più utile di Google. Terzo: i crawler IA (GPTBot, PerplexityBot, ClaudeBot) hanno render JS più deboli; ottimizzare per Googlebot rende il contenuto visibile anche in IA search, ma non sempre viceversa. La soluzione a “i motori IA non mi citano” coincide spesso con “Googlebot non vede il mio contenuto”: SSR, contenuto critico nell’HTML iniziale, niente JS che fallisce silenziosamente.
Correlati: SEO per Single Page Application • Answer Engine Optimization (AEO) • Strumento gratuito di SEO Audit • AI Visibility Checker gratuito
no credit card required