Googlebot er en software-søgningsrobot til webcrawling (også kendt som en spider eller webcrawler), der indsamler de oplysninger om websider, der bruges til at levere Google-søgemaskinens resultatsider (SERP).
Googlebot indsamler dokumenter fra nettet for at opbygge Googles søgeindeks. Ved konstant at indsamle dokumenter opdager softwaren nye sider og opdateringer af eksisterende sider. Googlebot bruger et distribueret design, der spænder over mange computere, så den kan vokse i takt med, at internettet vokser.
Webcrawleren bruger algoritmer til at bestemme, hvilke websteder der skal gennemses, med hvilken hastighed der skal gennemses, og hvor mange sider der skal hentes fra. Googlebot begynder med en liste, der er genereret fra tidligere sessioner. Denne liste suppleres derefter med de sitemaps, som webmastere har leveret. Softwaren gennemtrawler alle linkede elementer på de websider, den gennemser, og noterer sig nye websteder, opdateringer af websteder og døde links. De indsamlede oplysninger bruges til at opdatere Googles indeks over internettet.
Googlebot opretter et indeks inden for de begrænsninger, som webmasterne har fastsat i deres robots.txt-filer. Hvis en webmaster f.eks. ønsker at holde sider skjult for Google-søgning, kan han blokere Googlebot i en robots.txt-fil i mappen på øverste niveau på webstedet. For at forhindre Googlebot i at følge alle links på en given side på et websted kan han medtage metatagget nofollow; for at forhindre robotten i at følge individuelle links kan webmasteren tilføje rel=”nofollow” til selve linkene.
En webmaster på et websted kan måske registrere besøg med få sekunders mellemrum fra computere på google.com, der viser bruger-agenten Googlebot. Generelt forsøger Google at indeksere så meget af et websted som muligt uden at overbelaste webstedets båndbredde. Hvis en webmaster finder, at Googlebot bruger for meget båndbredde, kan han/hun indstille en sats på Googles søgekonsol-hjemmeside, som forbliver i kraft i 90 dage.
På SearchLove-konferencen i 2011 hævdede Josh Giardino ved en præsentation, at Googlebot faktisk er Chrome-browseren. Det ville betyde, at Googlebot ikke kun har evnen til at gennemse sider i tekst, som crawlere gør, men også kan køre scripts og medier, som webbrowsere gør. Denne kapacitet kunne give Googlebot mulighed for at finde skjulte oplysninger og udføre andre opgaver, som Google ikke anerkender. Giardino gik så vidt som til at sige, at Googlebot måske er den oprindelige årsag til, at virksomheden skabte Chrome.