最新公告
  • 欢迎您光临玖居暗巷,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入我们
  • 百度蜘蛛Baiduspider的真假如何分辨

    百度蜘蛛Baiduspider的真假如何分辨-玖居暗巷

    实际上,我们的日志中,有很多的baiduspider是他人伪装的,要想解决这个问题。我们必须在验证baiduspider真伪上下功夫,这篇文章详细的介绍了爬虫的鉴别方法。

    我们在根据网站日志分析搜索引擎蜘蛛抓取网页的记录时,实际上很多站点都是有一些伪装称baiduspider的到访者的。这些数据会严重影响我们对日志分析后的判断。

    这些到访者,为什么会伪装为baiduspider来访问我们的网站呢?最典型的就是采集你内容的那些人。他们知道很多工具是能够看到哪些ip访问网站的量过大的。例如某一个ip今天访问你网站1万次,那正常吗?肯定是不正常的。但他要是baiduspdier呢?呵呵,那就正常了。

    Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

    Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

    Mozilla/5.0(Linux;u;Android4.2.2;zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)Version/5.1MobileSafari/10600.6.3(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

    Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)Version/9.0Mobile/13B143Safari/601.1(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

    如上是包含了百度的常规爬虫,和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。

    可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

    1、在linux平台下,您可以使用hostip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。

    2、在windows平台或者IBMOS/2平台下,您可以使用nslookupip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookupxxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。

    3、在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入digxxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。

     

     

    ①本站资源仅用于学习和交流,勿用于商业。切勿私自传播于网络,将会追究法律责任。
    ②本站其他资源来源网络或者用户投稿,供学习交流之用。如有侵权请联系删除。
    ③如有链接无法下载、失效或广告,请联系管理员处理!
    ④本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
    ⑤如果你也有好源码或者教程,可以到审核区发布,分享有本站专属货币奖励和额外收入!
    ⑥如遇到加密压缩包,默认解压密码为"jiuqing97.top",如遇到无法解压的请联系管理员!

    玖居暗巷 » 百度蜘蛛Baiduspider的真假如何分辨

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于网页模版、APP源码等类型的资源,文章内用于介绍的图片通常并不包含在对应可供下载资源包内。这些相关商业资源需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些文件也是这种情况,但部分资源会在资源包内有一份下载链接清单。
    玖居暗巷
    一个高级程序员模板开发平台

    Leave a Reply