企业网站设计限定爬虫

日期 : 2020-10-21 18:39:41
        限定爬虫。藏文网页搜索使用的爬虫, 是一种限定爬虫, 在爬虫的功能定位上只抓取藏文的网页, 本质是对网页文本所用语言的限定。藏文网页的限定爬虫, 表面上是限定语言, 具体操作层面需要通过限定IP、限定URL、限定charset来实现。

        限定爬虫就是对爬虫所爬取的主机的范围做一些限制, 通常, 限定爬虫包含以下几个方面: (1) 限定域名的爬虫。比如, 只抓取edu.cn结尾的域名; (2) 限定爬取层数的爬虫。比如, 限定只抓取2层的数据; (3) 限定IP的抓取。比如, 只抓取西藏自治区内的IP; (4) 限定语言的抓取。比如, 只抓取中文汉字页面。

        抓取藏文网页一方面要设计限定爬虫, 另一方面建立动态更新的藏文网站域名库、藏文网站主机IP库, 配合限定爬虫工作。目前已有部分藏文网站在页面中加入了标记, 如中国藏学网采用的是<html xml:lang="za-cn"lang="za-cn">, 西藏IT网采用的是<html class="ie ie7"lang="bo-CN">, 琼迈藏族文学网采用的是<html lang="bo">。可以根据网页代码中的标记来识别判断藏文网站。藏文网站域名库和藏文网站主机IP库, 需要人工操作, 人为添加一些地址, 这方面参照现在互联网广泛使用的“纯真IP数据库”实现。

相关文章