当前位置:主页 > 建站知识 > 网站优化 >

白银网站优化:爬虫质量的评价标准

发布时间:2021-03-05 22:24   浏览次数:次   作者:[db:作者]

爬行动物质量评价标准

从搜索引擎用户体验的角度来看,对于爬虫的工作效果有不同的评价标准,其中三个主要标准是:爬行网页的覆盖率、爬行网页的新颖性和爬行网页的重要性。如果这三个方面做得好,搜索引擎用户体验就必须良好。

对于现有的搜索引擎来说,没有能够下载和索引所有出现在互联网上的页面的搜索引擎,所有搜索引擎都只能索引互联网的一部分。所谓的爬虫覆盖是指爬虫在互联网上所有页面的数量中爬行网页数,覆盖范围越高,相当于搜索引擎的召回率越高,用户体验就越好。

索引页与因特网页的比较

由于爬虫需要很长的时间才能完成一轮爬行,所以本地页面可能已经更改,或者内容被删除,因为爬虫需要很长的时间才能完成一轮,所以有些爬行页必然是过时的数据,也就是说,页面变化后它们就不能在网页库中反映出来。因此,网页库中过期的数据越少,网页的新颖性就越好,这对用户体验的改善有很大的好处。

如果新颖性不好,搜索都是过时的数据,或者页面被删除,用户的内心感受是可以想象的。

虽然互联网上有很多网页,但每个网页都有很大的不同,例如腾讯和网易新闻的网页的重要性和作弊网页的重要性是不一样的。如果搜索引擎爬行的大多数网页都是更重要的网页,可以看出它们在理解网页重要性方面做得很好。在这方面做得越好,搜索引擎就会越准确。

通过对上述三个标准的解释和分析,我们可以简要地描述爬虫研究和开发的目标如下:在资源有限的情况下,由于搜索引擎只能掌握互联网现有网页的一部分,那么尽可能选择网页中更重要的部分进行索引;对于已经爬行的网页,尽快更新内容,以便索引网页和互联网相应的网页内容能够同步更新。在此基础上,尽可能扩大爬行的范围,爬行到更多以前找不到的页面。

三"尽量"基本说明爬虫系统的目标,以提高用户体验。

为了满足这三大质量标准,大多数大型商业搜索引擎都开发了许多目标明确的爬虫系统。以谷歌(Google)为例,至少有两种不同的爬虫系统:一种是大一机器人,主要考虑网页的新颖性,另一种是深度爬行机器人,其主要目标是以更新次数较少的网页为目标,并将几天作为内容更新频繁的页面的更新周期。

此外,谷歌还投入了大量精力开发一个黑暗网络的捕获系统。