検索エンジンに搭載され、スパイダーやボットと呼ばれることもあるウェブクローラーは、インターネット上のコンテンツをダウンロードし、インデックスを作成する役割を担っています。このボットは、インターネット上のほぼすべてのウェブサイトのコンテンツを把握し、必要なときにいつでも関連情報を取得できるように設計されています。.
多くの場合、これらのボットの実行とメンテナンスは検索エンジンが担当しています。ユーザーがGoogleやBingで検索すると、結果として返されるウェブサイト(または他の検索エンジン)のリストが生成されます。.
ウェブクローラーボットは、整理されていない図書館にあるすべての書籍を検索し、カードカタログを作成する役割を担う個人として考えることができます。このカードカタログは、図書館を訪れるすべての人に公開され、必要な情報を迅速かつ簡単に見つけることができます。.
Web クローラーはどのように機能しますか?
インターネットは絶えず新たな機能を獲得し、その活動範囲を拡大しています。Webクローラーボットは、シード(既に認識しているURLのリスト)から作業を開始します。このシードが作業の起点となります。これは、インターネット上で利用可能なウェブサイトの総数を把握することは物理的に不可能だからです。ボットは、提供されたURLを使用してアクセスできる可能性のあるウェブサイトをクロールすることから始めます。そして、他のURLへのリンクを発見するまで、それらのWebページをクロールし続けます。発見したら、それらのWebページを次にクロールするドメインのリストに追加します。.
非常に多くのウェブサイトが検索目的でインデックス化されるため、このプロセスはほぼ無限に時間がかかる可能性があります。ウェブクローラーは、ページに意味のある情報が含まれている可能性を示す他の要素も考慮します。ほとんどのウェブクローラーは、インターネットの公開部分全体をクロールするように設計されていません。代わりに、これらの特性など、いくつかの特性を考慮して、最初にクロールするサイトを決定します。.
検索エンジンは、多くのウェブページから参照され、多くの訪問者数を誇るサイトをインデックスに登録する必要があります。これは、そのようなウェブページには、高品質で権威のあるコンテンツが含まれている可能性が高いためです。これは、図書館が多くの利用者から頻繁に借りられる書籍を十分な数確保する状況に似ています。.
以前訪問したウェブサイトの調査
ワールド・ワイド・ウェブ上で発見される情報は、常に更新、削除、あるいは他のウェブサイトへ移動されています。ウェブクローラーは、データベースに最新の情報が含まれていることを保証するために、インデックス対象のサイトを頻繁に訪問する必要があります。.
各検索エンジンのスパイダーボットが使用する特殊なアルゴリズムでは、これらの要素の重要性はそれぞれ異なります。しかし、すべてのウェブクローラーの最終目的は同じです。ウェブサイトからコンテンツをダウンロードしてインデックスを作成することですが、各検索エンジンが採用するウェブクローラーの動作はそれぞれ異なります。.
Seahawkmediaを参照してください。