Googlebot é um robot de pesquisa de software de rastreamento da web (também conhecido como spider ou webcrawler) que reúne as informações da página web usada para fornecer páginas de resultados do mecanismo de pesquisa do Google (SERP).
Googlebot coleta documentos da web para construir o índice de pesquisa do Google. Através da recolha constante de documentos, o software descobre novas páginas e actualizações para páginas existentes. O Googlebot utiliza um design distribuído que abrange muitos computadores para que possa crescer como a web.
O webcrawler utiliza algoritmos para determinar quais os sites a pesquisar, quais as taxas de navegação e de quantas páginas buscar. O Googlebot começa com uma lista gerada a partir de sessões anteriores. Essa lista é então aumentada pelos mapas de sites fornecidos pelos webmasters. O software rastreia todos os elementos ligados nas páginas web em que navega, anotando novos sites, atualizações para sites e links mortos. As informações coletadas são usadas para atualizar o índice da web do Google.
Googlebot cria um índice dentro das limitações estabelecidas pelos webmasters em seus arquivos robots.txt. Caso um webmaster deseje manter páginas ocultas da pesquisa do Google, por exemplo, ele pode bloquear o Googlebot em um arquivo robots.txt na pasta de nível superior do site. Para evitar que o Googlebot siga qualquer link em uma determinada página de um site, ele pode incluir a meta tag nofollow; para evitar que o bot siga links individuais, o webmaster pode adicionar rel=”nofollow” aos próprios links.
O webmaster de um site pode detectar visitas a cada poucos segundos de computadores em google.com, mostrando o Googlebot do usuário. Geralmente, o Google tenta indexar o máximo possível de um site sem sobrecarregar a largura de banda do site. Se um webmaster descobrir que o Googlebot está a utilizar demasiada largura de banda, pode definir uma taxa na página inicial da consola de pesquisa do Google que permanecerá em vigor durante 90 dias.
Apresentando na conferência SearchLove 2011, Josh Giardino afirmou que o Googlebot é, na verdade, o navegador Chrome. Isso significaria que o Googlebot não só tem a capacidade de navegar em páginas de texto, como os crawlers fazem, mas também pode executar scripts e mídia como os navegadores da web fazem. Essa capacidade poderia permitir ao Googlebot encontrar informações ocultas e realizar outras tarefas que não são reconhecidas pelo Google. Giardino chegou ao ponto de dizer que o Googlebot pode ser a razão original pela qual a empresa criou o Chrome.
.