‘クローラ’ カテゴリーのアーカイブ

クローラという名のスパイダー

2010/05/22

主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。

近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。

一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。

新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。