Googlebot este un robot de căutare software (cunoscut și sub numele de spider sau webcrawler) care adună informațiile de pe paginile web folosite pentru a furniza paginile de rezultate ale motorului de căutare Google (SERP).
Googlebot colectează documente de pe web pentru a construi indexul de căutare al Google. Prin colectarea constantă a documentelor, software-ul descoperă pagini noi și actualizări ale paginilor existente. Googlebot folosește un design distribuit care se întinde pe mai multe computere, astfel încât să se poată dezvolta odată cu web-ul.
Cercetatorul web folosește algoritmi pentru a determina ce site-uri să navigheze, la ce ritm să navigheze și câte pagini să preia. Googlebot începe cu o listă generată din sesiunile anterioare. Această listă este apoi completată de sitemap-urile furnizate de către webmasteri. Software-ul parcurge toate elementele legate din paginile web pe care le navighează, notând site-urile noi, actualizările site-urilor și legăturile moarte. Informațiile adunate sunt folosite pentru a actualiza indexul web al Google.
Googlebot creează un index în limitele stabilite de administratorii de site-uri web în fișierele lor robots.txt. În cazul în care un webmaster dorește să păstreze paginile ascunse de căutarea Google, de exemplu, el poate bloca Googlebot într-un fișier robots.txt în folderul de nivel superior al site-ului. Pentru a împiedica Googlebot să urmărească orice linkuri de pe o anumită pagină a unui site, el poate include meta tag-ul nofollow; pentru a împiedica robotul să urmărească linkuri individuale, webmasterul poate adăuga rel=”nofollow” la linkurile în sine.
Un webmaster al unui site poate detecta vizite la fiecare câteva secunde de la computere la google.com, afișând user-agent Googlebot. În general, Google încearcă să indexeze cât mai mult dintr-un site fără a copleși lățimea de bandă a site-ului. Dacă un webmaster constată că Googlebot folosește prea multă lățime de bandă, poate seta o rată pe pagina de pornire a consolei de căutare a Google, care va rămâne în vigoare timp de 90 de zile.
Prezentând la conferința SearchLove 2011, Josh Giardino a susținut că Googlebot este de fapt browserul Chrome. Acest lucru ar însemna că Googlebot nu are doar capacitatea de a răsfoi pagini în text, așa cum fac crawlerele, ci poate rula scripturi și conținut media, așa cum fac browserele web. Această capacitate i-ar putea permite lui Googlebot să găsească informații ascunse și să îndeplinească alte sarcini care nu sunt recunoscute de Google. Giardino a mers atât de departe încât a spus că Googlebot ar putea fi motivul inițial pentru care compania a creat Chrome.
.