蜘蛛爬行抓取的地址库和文件存储

地址库

为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面地址库中的 URL 有几个来源:

(1) 人工录入的种子网站。

(2) 蜘蛛抓取页面后，从 HTML 中解析出新的链接 URL 与地址库中的数据进行对比，如果是地址库中没有的网址，就存入待访问地址库。

(3) 站长通过搜索引擎网页提交表格提交进来的网址。

蜘蛛按重要性从待访问地址库中提取 URL，访问并抓取页面，然后把这个 URL，从待访问地址库中删除，放进已访问地址库中。

大部分主流搜索引擎都提供一个表格，让站长提交网址。不过这些提交来的网址都只是存入地址库而已，是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的，搜索引擎更喜欢自己沿着链接发现新页面。

文件存储

搜索引擎蜘蛛抓取的数据存入原始页面芜湖网站设计数据库。其中的页面数据与用户浏览器得到的HTML 是完全一样的，每个URL都有一个独特的文件编号。

本文地址：https://www.hy755.cn//article/2725.html

分享到：QQ空间新浪微博腾讯微博人人网微信开心网百度贴吧豆瓣网