Googlebot est un robot de recherche logiciel d’exploration du web (également connu sous le nom d’araignée ou de webcrawler) qui rassemble les informations des pages web utilisées pour alimenter les pages de résultats du moteur de recherche Google (SERP).
Googlebot collecte les documents du web pour construire l’index de recherche de Google. Grâce à la collecte constante de documents, le logiciel découvre de nouvelles pages et des mises à jour de pages existantes. Googlebot utilise une conception distribuée couvrant de nombreux ordinateurs afin qu’il puisse croître en même temps que le web.
Le webcrawler utilise des algorithmes pour déterminer les sites à parcourir, les taux de navigation et le nombre de pages à récupérer. Googlebot commence par une liste générée à partir des sessions précédentes. Cette liste est ensuite complétée par les sitemaps fournis par les webmasters. Le logiciel explore tous les éléments liés dans les pages Web qu’il parcourt, notant les nouveaux sites, les mises à jour de sites et les liens morts. Les informations recueillies sont utilisées pour mettre à jour l’index du web de Google.
Googlebot crée un index dans les limites fixées par les webmasters dans leurs fichiers robots.txt. Si un webmaster souhaite que des pages soient cachées de la recherche Google, par exemple, il peut bloquer Googlebot dans un fichier robots.txt situé dans le dossier de premier niveau du site. Pour empêcher Googlebot de suivre n’importe quel lien sur une page donnée d’un site, il peut inclure la balise méta nofollow ; pour empêcher le bot de suivre des liens individuels, le webmaster peut ajouter rel= »nofollow » aux liens eux-mêmes.
Le webmaster d’un site pourrait détecter des visites toutes les quelques secondes en provenance d’ordinateurs à google.com, montrant l’agent utilisateur Googlebot. En général, Google essaie d’indexer la plus grande partie possible d’un site sans saturer la bande passante du site. Si un webmaster trouve que Googlebot utilise trop de bande passante, il peut définir un taux sur la page d’accueil de la console de recherche de Google qui restera en vigueur pendant 90 jours.
Présentant à la conférence SearchLove 2011, Josh Giardino a affirmé que Googlebot est en fait le navigateur Chrome. Cela signifierait que Googlebot a non seulement la capacité de parcourir les pages en texte, comme le font les crawlers, mais qu’il peut aussi exécuter des scripts et des médias comme le font les navigateurs web. Cette capacité pourrait permettre à Googlebot de trouver des informations cachées et d’effectuer d’autres tâches qui ne sont pas reconnues par Google. Giardino est allé jusqu’à dire que Googlebot pourrait être la raison initiale pour laquelle la société a créé Chrome.