行业动态广度优先搜索策略

         广度优先搜索策略是使用比较广泛的一种方法,也是很多重要算法的原型。策略基本过程为,首先给定种子URL并从初始种子网页开始遍历,获取种子网页中的所有超链接并依次采集,然后重复上述过程对之后的链接层的网页链接进行抓取,当网络中该路径下的所有链接全部遍历完,搜索爬取停止。

         广度优先搜索是一种层序遍历方法,从选定的初始种子访问,逐层对所有链接进行遍历直到完成,遍历时按照从浅层到深层,同一层链接优先处理原则。

         当采用广度优先去爬取一个特定的网络站点或者深层结构网站的网络拓扑集合时,到底层时需要耗费较长的时间。目前国内的搜索引擎中,大多数是以广度优先搜索为主要的爬行策略,而那些很少被引用或者孤立的网站,就有可能被忽略掉,可以采用其他搜索策略来进行弥补,得到全面的搜索结果。

本文地址:http://www.hy755.cn//article/21477.html
相关文章:
最新文章: