搜索引擎使用的网络爬虫通常被称为蜘蛛或机器人,其任务是下载互联网上的内容并编制索引。像这样的机器人旨在熟悉互联网上(几乎)所有网站的内容,以确保在需要时随时检索相关信息。
大多数情况下,搜索引擎负责运行这些机器人并对其进行维护。当用户使用谷歌或必应进行搜索时,搜索引擎(或其他搜索引擎)会返回一份网站列表。
可以把网络爬虫机器人想象成一个人,他的工作就是在一个杂乱无章的图书馆里搜索所有的书籍,然后编制一个卡片目录。然后,任何访问图书馆的人都可以使用这个卡片目录,快速、轻松地找到所需的信息。
网络爬虫如何工作?
互联网正在不断获得新的功能并扩大其运行范围。网络爬虫机器人从种子开始工作,而种子就是它们已经熟悉的 URL 列表。种子是它们工作的起点。这是因为,要知道互联网上所有可用的网站数量实际上是不可能的。他们首先抓取使用所提供的 URL 可以访问的网站。他们会继续抓取这些网页,直到发现指向其他 URL 的链接;这时,他们会将这些网页添加到下一个要抓取的域列表中。
这个过程可能会持续几乎无限长的时间,因为有如此多的网站可能会被索引用于搜索目的。网络爬虫还会考虑其他因素,如页面包含有意义信息的可能性。大多数网络爬虫的设计目的不是抓取整个互联网的公共部分。相反,它们会通过考虑以下几个特征来决定首先抓取哪些网站。
搜索引擎需要收录一个被许多其他网页引用并有大量访问量的网站。这是因为这样的网页更有可能包含高质量和权威的内容。这种情况就好比一个图书馆如何确保有足够数量的书籍经常被许多顾客借阅。
调查以前访问过的网站
在万维网上发现的信息会不断更新、删除或转移到其他网站。网络爬虫必须经常访问它们所索引的网站,以确保其数据库包含最新版本的资料。
在不同搜索引擎的蜘蛛机器人所使用的专门算法中,这些因素的重要性各不相同。不过,所有网络爬虫的最终目标都是一样的:从网站上下载内容并编制索引。
如需了解更多此类文章,请参阅Seahawkmedia 。