Googlebot is een web crawling software search bot (ook bekend als een spider of webcrawler) die de webpagina informatie verzamelt die gebruikt wordt om Google zoekmachine resultaten pagina’s (SERP) te leveren.
Googlebot verzamelt documenten van het web om Google’s zoekindex op te bouwen. Door voortdurend documenten te verzamelen, ontdekt de software nieuwe pagina’s en updates van bestaande pagina’s. Googlebot maakt gebruik van een gedistribueerd ontwerp dat vele computers omvat, zodat het kan meegroeien met het web.
De webcrawler gebruikt algoritmen om te bepalen welke sites moeten worden doorzocht, met welke snelheid en hoeveel pagina’s moeten worden opgehaald. Googlebot begint met een lijst die is gegenereerd uit eerdere sessies. Deze lijst wordt vervolgens aangevuld met de sitemaps die door webmasters worden verstrekt. De software crawlt alle gelinkte elementen in de webpagina’s die hij doorbladert, en noteert nieuwe sites, updates van sites en dode links. De verzamelde informatie wordt gebruikt om Google’s index van het web bij te werken.
Googlebot maakt een index binnen de beperkingen die door webmasters in hun robots.txt bestanden zijn vastgelegd. Als een webmaster bijvoorbeeld pagina’s verborgen wil houden voor Google-zoekopdrachten, kan hij Googlebot blokkeren in een robots.txt-bestand in de map op het hoogste niveau van de site. Om te voorkomen dat Googlebot links op een bepaalde pagina van een site volgt, kan hij de meta-tag nofollow opnemen; om te voorkomen dat de bot individuele links volgt, kan de webmaster rel=”nofollow” aan de links zelf toevoegen.
De webmaster van een site detecteert mogelijk om de paar seconden bezoeken van computers op google.com, waarbij de user-agent Googlebot wordt getoond. In het algemeen probeert Google zoveel mogelijk van een site te indexeren zonder de bandbreedte van de site te overbelasten. Als een webmaster vindt dat Googlebot te veel bandbreedte gebruikt, kunnen ze op de startpagina van Google’s zoekconsole een snelheid instellen die 90 dagen van kracht blijft.
Tijdens een presentatie op de SearchLove-conferentie 2011 beweerde Josh Giardino dat Googlebot eigenlijk de Chrome-browser is. Dat zou betekenen dat Googlebot niet alleen de mogelijkheid heeft om pagina’s in tekst te doorzoeken, zoals crawlers doen, maar ook scripts en media kan uitvoeren, zoals webbrowsers doen. Die capaciteit zou Googlebot in staat kunnen stellen verborgen informatie te vinden en andere taken uit te voeren die niet door Google worden erkend. Giardino ging zelfs zo ver om te zeggen dat Googlebot de oorspronkelijke reden kan zijn dat het bedrijf Chrome heeft gecreëerd.