Googlebot は、Google 検索エンジン結果ページ (SERP) に使用する Web ページ情報を収集する Web クローリング ソフトウェア検索ロボット (スパイダーまたは Web クローラーとしても知られています)です。 常にドキュメントを収集することにより、新しいページや既存のページの更新を発見しています。 4752>
ウェブクローラーは、閲覧するサイト、閲覧する速度、および取得するページ数を決定するためにアルゴリズムを使用します。 Googlebot は、まず以前のセッションから生成されたリストを使用します。 このリストは、ウェブマスターから提供されたサイトマップによって補強される。 このソフトウェアは、閲覧したウェブページのすべてのリンク要素をクロールし、新しいサイト、サイトの更新、デッドリンクに注目します。
Googlebot は、ウェブマスターが robots.txt ファイルで設定した制限の範囲内でインデックスを作成します。 たとえば、ウェブマスターが Google 検索からページを隠しておきたい場合、サイトの最上位フォルダーにある robots.txt ファイルで Googlebot をブロックすることができます。 Googlebot がサイトの任意のページのリンクを辿らないようにするには、nofollow メタタグを含めます。個々のリンクを辿らないようにするには、ウェブマスターはリンク自体に rel=”nofollow” を追加します。
あるサイトのウェブマスターは、ユーザーエージェント Googlebot を示す google.com のコンピューターからの数秒ごとのアクセスを検出するかもしれません。 一般に、Google は、サイトの帯域幅を圧迫することなく、できる限り多くのサイトをインデックス化しようとします。 ウェブマスターは、Googlebot があまりにも多くの帯域幅を使用していることを発見した場合、Google のサーチ コンソールのホームページで、90 日間有効な料金を設定できます。
2011 SearchLove conference で発表した Josh Giardino は、Googlebot は実際には Chrome ブラウザであると主張しました。 つまり、Googlebot はクローラのようにテキストでページを閲覧する能力だけでなく、ウェブブラウザのようにスクリプトやメディアを実行することも可能だということです。 その能力によって、Googlebotは隠された情報を見つけたり、Googleが認めていない他の作業を行うことができるかもしれない。 Giardinoは、Googlebotが、同社がChromeを作った本来の理由かもしれないとまで言っている
。