Googlebot es un robot de búsqueda de software de rastreo web (también conocido como araña o webcrawler) que recopila la información de la página web utilizada para suministrar las páginas de resultados del motor de búsqueda de Google (SERP).
Googlebot recopila documentos de la web para construir el índice de búsqueda de Google. Mediante la recopilación constante de documentos, el software descubre nuevas páginas y actualizaciones de páginas existentes. Googlebot utiliza un diseño distribuido que abarca muchos ordenadores para poder crecer a medida que lo hace la web.
El rastreador web utiliza algoritmos para determinar qué sitios debe explorar, a qué velocidad debe hacerlo y cuántas páginas debe recuperar. Googlebot comienza con una lista generada a partir de sesiones anteriores. Esta lista se amplía con los mapas de sitio proporcionados por los webmasters. El software rastrea todos los elementos enlazados en las páginas web que explora, anotando los sitios nuevos, las actualizaciones de los sitios y los enlaces muertos. La información recopilada se utiliza para actualizar el índice web de Google.
Googlebot crea un índice dentro de las limitaciones establecidas por los webmasters en sus archivos robots.txt. Si un webmaster desea mantener las páginas ocultas a la búsqueda de Google, por ejemplo, puede bloquear Googlebot en un archivo robots.txt en la carpeta de nivel superior del sitio. Para evitar que Googlebot siga cualquier enlace en una página determinada de un sitio, puede incluir la metaetiqueta nofollow; para evitar que el bot siga enlaces individuales, el webmaster puede añadir rel=»nofollow» a los propios enlaces.
El webmaster de un sitio puede detectar visitas cada pocos segundos desde ordenadores en google.com, mostrando el user-agent Googlebot. Por lo general, Google intenta indexar la mayor parte posible de un sitio sin saturar el ancho de banda del mismo. Si un webmaster encuentra que Googlebot está utilizando demasiado ancho de banda, puede establecer una tasa en la página principal de la consola de búsqueda de Google que permanecerá en vigor durante 90 días.
Presentando en la conferencia SearchLove 2011, Josh Giardino afirmó que Googlebot es en realidad el navegador Chrome. Eso significaría que Googlebot no sólo tiene la capacidad de navegar por las páginas en texto, como lo hacen los rastreadores, sino que también puede ejecutar scripts y medios de comunicación como lo hacen los navegadores web. Esa capacidad podría permitir a Googlebot encontrar información oculta y realizar otras tareas no reconocidas por Google. Giardino llegó a decir que Googlebot puede ser la razón original por la que la empresa creó Chrome.