Googlebot è un software di ricerca bot (conosciuto anche come spider o webcrawler) che raccoglie le informazioni sulle pagine web utilizzate per fornire le pagine dei risultati del motore di ricerca Google (SERP).
Googlebot raccoglie documenti dal web per costruire l’indice di ricerca di Google. Attraverso la raccolta costante di documenti, il software scopre nuove pagine e aggiornamenti alle pagine esistenti. Googlebot usa un design distribuito che abbraccia molti computer in modo da poter crescere come fa il web.
Il webcrawler usa algoritmi per determinare quali siti sfogliare, a quali velocità sfogliare e quante pagine recuperare. Googlebot inizia con una lista generata dalle sessioni precedenti. Questa lista è poi aumentata dalle sitemaps fornite dai webmaster. Il software scansiona tutti gli elementi collegati nelle pagine web che naviga, notando nuovi siti, aggiornamenti di siti e link morti. Le informazioni raccolte vengono utilizzate per aggiornare l’indice del web di Google.
Googlebot crea un indice entro i limiti stabiliti dai webmaster nei loro file robots.txt. Se un webmaster desidera tenere le pagine nascoste alla ricerca di Google, per esempio, può bloccare Googlebot in un file robots.txt nella cartella di primo livello del sito. Per impedire a Googlebot di seguire qualsiasi link su una data pagina di un sito, può includere il meta tag nofollow; per impedire al bot di seguire singoli link, il webmaster può aggiungere rel=”nofollow” ai link stessi.
Il webmaster di un sito potrebbe rilevare visite ogni pochi secondi da computer a google.com, mostrando l’user-agent Googlebot. Generalmente, Google cerca di indicizzare il più possibile un sito senza sovraccaricare la larghezza di banda del sito. Se un webmaster trova che Googlebot sta usando troppa larghezza di banda, può impostare un tasso sulla homepage della console di ricerca di Google che rimarrà in vigore per 90 giorni.
Presentando alla conferenza SearchLove 2011, Josh Giardino ha sostenuto che Googlebot è in realtà il browser Chrome. Ciò significherebbe che Googlebot non ha solo la capacità di sfogliare le pagine di testo, come fanno i crawler, ma può anche eseguire script e media come fanno i browser web. Questa capacità potrebbe permettere a Googlebot di trovare informazioni nascoste ed eseguire altri compiti che non sono riconosciuti da Google. Giardino si è spinto a dire che Googlebot potrebbe essere la ragione originale per cui la società ha creato Chrome.