公司网站制作爬虫“黑洞”

日期 : 2020-10-21 18:38:35
       爬虫“黑洞”。爬虫在搜集藏文网页的过程中, 必须考虑可能出现的“黑洞”情况。

       爬虫黑洞是指, 在抓取一张网页的链接时, 链接本身是一个无限循环, 导致爬虫抓取时跟着循环, 浪费资源。有时一些URL看起来不同, 但实际指向同一张网页, 也会使爬虫陷入重复抓取的境地。

       为了避免爬虫误入黑洞, 一般采取两种策略。一是爬虫回避动态网页, 因为动态网页常常会把爬虫带入黑洞。识别动态网页时, 只需要判断URL中是否出现问题, 含问号的就是动态网页。二是使用Visited表记录已经访问过的URL, 凡是遇到新的URL存在于Visited表, 就放弃对该URL的继续处理。例如:当遇到a→b→c→d→c→e这样的环路链接, 爬虫就会掉进去, 反复抓取c、d对应的页面。使用Visited表, 就能避免这个问题。

相关文章