Googlebot to oprogramowanie przeszukujące sieć (znane także jako spider lub webcrawler), które zbiera informacje o stronach internetowych wykorzystywane do dostarczania stron wyników wyszukiwania Google (SERP).
Googlebot zbiera dokumenty z sieci, aby zbudować indeks wyszukiwania Google. Poprzez ciągłe gromadzenie dokumentów, oprogramowanie odkrywa nowe strony i aktualizacje istniejących stron. Googlebot używa rozproszonego projektu obejmującego wiele komputerów, dzięki czemu może rosnąć wraz z rozwojem sieci.
Webcrawler używa algorytmów, aby określić, jakie strony przeglądać, w jakim tempie i ile stron pobierać. Googlebot zaczyna od listy wygenerowanej na podstawie poprzednich sesji. Lista ta jest następnie uzupełniana o sitemapy dostarczane przez webmasterów. Oprogramowanie przeszukuje wszystkie połączone elementy na przeglądanych stronach, odnotowując nowe witryny, aktualizacje witryn i martwe linki. Zebrane informacje są wykorzystywane do aktualizacji indeksu Google.
Googlebot tworzy indeks w ramach ograniczeń określonych przez webmasterów w ich plikach robots.txt. Jeśli webmaster chce ukryć strony przed wyszukiwaniem Google, może na przykład zablokować Googlebota w pliku robots.txt w folderze najwyższego poziomu witryny. Aby uniemożliwić Googlebotowi podążanie za jakimikolwiek linkami na danej stronie witryny, może on dołączyć znacznik meta nofollow; aby uniemożliwić botowi podążanie za poszczególnymi linkami, webmaster może dodać rel=”nofollow” do samych linków.
Webmaster witryny może wykryć wizyty co kilka sekund z komputerów pod adresem google.com, pokazujące user-agent Googlebot. Ogólnie rzecz biorąc, Google stara się zaindeksować jak największą część witryny bez przeciążania jej przepustowości. Jeśli webmaster stwierdzi, że Googlebot używa zbyt dużej przepustowości, może ustawić stawkę na stronie głównej konsoli wyszukiwania Google, która będzie obowiązywać przez 90 dni.
Prezentując na konferencji SearchLove 2011, Josh Giardino twierdził, że Googlebot jest tak naprawdę przeglądarką Chrome. Oznaczałoby to, że Googlebot ma nie tylko zdolność do przeglądania stron w tekście, jak robią to crawlery, ale może również uruchamiać skrypty i media, jak robią to przeglądarki internetowe. Ta zdolność mogłaby pozwolić Googlebotowi na znajdowanie ukrytych informacji i wykonywanie innych zadań, które nie są uznawane przez Google. Giardino poszedł tak daleko, aby powiedzieć, że Googlebot może być pierwotnym powodem, że firma stworzyła Chrome.