Googlebot ist ein Web-Crawling-Software-Suchroboter (auch bekannt als Spider oder Webcrawler), der die Webseiten-Informationen sammelt, die für die Google-Suchmaschinen-Ergebnisseiten (SERP) verwendet werden.
Googlebot sammelt Dokumente aus dem Web, um den Google-Suchindex aufzubauen. Durch das ständige Sammeln von Dokumenten entdeckt die Software neue Seiten und Aktualisierungen von bestehenden Seiten. Googlebot verwendet ein verteiltes Design, das sich über viele Computer erstreckt, so dass es mit dem Web mitwachsen kann.
Der Webcrawler verwendet Algorithmen, um zu bestimmen, welche Websites er durchsuchen soll, mit welcher Geschwindigkeit er durchsuchen soll und wie viele Seiten er abrufen soll. Googlebot beginnt mit einer Liste, die aus früheren Sitzungen erstellt wurde. Diese Liste wird dann um die von den Webmastern bereitgestellten Sitemaps ergänzt. Die Software durchsucht alle verknüpften Elemente auf den durchsuchten Webseiten und notiert neue Websites, Aktualisierungen von Websites und tote Links. Die gesammelten Informationen werden verwendet, um den Google-Index für das Web zu aktualisieren.
Googlebot erstellt einen Index innerhalb der von den Webmastern in ihren robots.txt-Dateien festgelegten Grenzen. Möchte ein Webmaster beispielsweise Seiten vor der Google-Suche verbergen, kann er Googlebot in einer robots.txt-Datei im obersten Ordner der Website blockieren. Um den Googlebot daran zu hindern, allen Links auf einer bestimmten Seite einer Website zu folgen, kann er das nofollow-Meta-Tag einfügen; um den Bot daran zu hindern, einzelnen Links zu folgen, kann der Webmaster rel=“nofollow“ zu den Links selbst hinzufügen.
Der Webmaster einer Website könnte alle paar Sekunden Besuche von Computern auf google.com feststellen, die den User-Agent Googlebot anzeigen. Im Allgemeinen versucht Google, so viel wie möglich von einer Website zu indizieren, ohne die Bandbreite der Website zu überlasten. Wenn ein Webmaster feststellt, dass Googlebot zu viel Bandbreite verbraucht, kann er auf der Startseite der Google-Suchkonsole eine Rate festlegen, die 90 Tage lang gültig ist.
Auf der SearchLove-Konferenz 2011 behauptete Josh Giardino, dass Googlebot eigentlich der Chrome-Browser ist. Das würde bedeuten, dass Googlebot nicht nur die Fähigkeit hat, Seiten in Textform zu durchsuchen, wie es Crawler tun, sondern auch Skripte und Medien ausführen kann, wie es Webbrowser tun. Diese Fähigkeit könnte es Googlebot ermöglichen, versteckte Informationen zu finden und andere Aufgaben auszuführen, die von Google nicht anerkannt werden. Giardino ging sogar so weit zu sagen, dass Googlebot der ursprüngliche Grund dafür sein könnte, dass das Unternehmen Chrome entwickelt hat.