ITPub博客

首页 > 数据治理 > 数据治理 > 【太阳软件】动态换ip软件:反爬虫对抗对数据分析的影响

【太阳软件】动态换ip软件:反爬虫对抗对数据分析的影响

原创 数据治理 作者:太阳小诸葛 时间:2019-01-08 15:31:46 0 删除 编辑

 概念定义

  ► 网络爬虫:使用任意技术手法批量获取网站站点网页信息的1种方法。

  ► 反网络爬虫:是指使用任意技术手法,阻止别人批量获取自己网站站点网页信息的1种方法。

  (主讲重点强调了“批量”二字,如果一次只获取几百条数据不能称之为网络爬虫,因为人工去复制粘贴的效率可能更高)

  ► 误伤:在反网络爬虫过程中,错误地将一般正常用户识别为网络爬虫的行为。

  ► 拦截:成功阻止网络爬虫访问。

  反网络爬虫原理

  形形色色的假币有一个共同的特征,就是和真币不一样。同理,形形色色的网络爬虫也有一个共同的特征,那就是它们的行为和真实的正常用户不一样。


  对于每一天大批量的访问,反网络爬虫工程师需要根据访问行为的特征,鉴定哪些访问是网络爬虫所为,然后采取一些措施阻止其获取数据。但是也有一定概率将真实正常用户判定为网络爬虫,而导致该正常用户无法继续访问网站站点或者无法看到真实的数据,影响了正常用户体验,这就是误伤。

   反网络爬虫策略的演变

  最初反网络爬虫的思路的是阻止对方拿到数据,但是在博弈中工程师们逐渐发现,网络爬虫是无法完全拦截的。因此现在更多的策略变成提供假数据,降低对方数据分析的可信性。


  主讲人给大家举一个例子把这个策略具体化。A企业和B企业进行价格竞争,双方都希望自己的定价低于对方来吸引正常用户。假设A企业定价200元,而B企业想要通过爬取A企业的价格数据制定更低的价格。此时A企业的反网络爬虫策略是对识别为网络爬虫的访问并提供220元的价格。这样一来,B企业就很可能基于这个假数据给相同商品定了一个210元的价格,以为可以在自己利润损失较少的情况下吸引客户。但事实上,这个价格比A企业的真实定价要高,正常用户一笔价,还是会选择购买A企业的产品。在这种情况下,B企业通过网络爬虫获得的数据就无法产生经济效益,A企业的“反网络爬虫数据保卫战”取得了胜利。

  当这种策略成了业内的共同知识,不少企业都会对爬取到的数据进行检查。目前,业界对所爬数据的处理方式主要有以下三种:

  ① 不验证

  ② 多次爬取验证

  ③ 人工抽检

   网络爬虫与反网络爬虫岗位对比

  一般企业都会对外声称自己做反网络爬虫,而隐瞒自己做网络爬虫。因为做网络爬虫就像在偷别人的数据,而做反网络爬虫则像在维护自己的资源,同时标榜自己的技术。但是招聘网站站点的数据是诚实的,在招聘网站站点上能搜到的反网络爬虫工程师岗位屈指可数,而网络爬虫工程师却非常多。


  企业一般很难招到反网络爬虫工程师,因为会网络爬虫的很多,会反爬的工程师很少。人才以稀为贵,反网络爬虫工程师的薪资也通常会比网络爬虫工程师高很多。因为人员缺乏,反网络爬虫的工作通常是由非专业团队来做的。一般都是在对企业网站站点常常遭遇网络爬虫的时期,管理人员以升职加薪为“诱饵”,调一部分前端的技术人员去做艰苦的反网络爬虫工作。

  反网络爬虫工程师的工作比较稳定,而网络爬虫工程师则比较容易离职。这是因为企业对网络爬虫工程师的绩效考核非常严格(比如抽查3000条数据,只要有一条是假的数据就全部重爬),容易造成压力。当然,被竞争对手的反网络爬虫工程师劝退也是离职率高背后一个比较重要的原因。关于这点先卖个关子,之后再展开来讲。

   网络爬虫和反网络爬虫的战争

  网络爬虫和反网络爬虫的战争耗费了很多资源,非常无聊,而且常常无法产生经济效益。他们之间的战争就像游戏和外挂的战争一样。游戏发布→外挂横行→游戏修补→漏洞外挂失效→新外挂出现→游戏再修补……反反复复,直到一方撑不下去,网络爬虫与反爬也是如此。

  一个情节跌宕起伏的实例:反网络爬虫工程师为了等待对方网络爬虫工程师下班,静静忍到晚上11点才更新策略,但第二天一觉醒来却发现自己的反网络爬虫系统竟然在凌晨3点被破解、数据也被对方获取,下定决心以后睁着大眼睛等到凌晨3点之后再对策略进行更新。


  对弈是煎熬的,但在这双方来来去去的过程中也发生了不少趣事。反网络爬虫工程师有时会在网站站点的代码中添加一些注释,这些注释一般正常用户看不到,但是网络爬虫工程师可以看到。他们会在这些注释里写一些让对方放弃的话语。甚至在一层层反网络爬虫策略靠后的位置放一些招聘网页信息,策反对面网络爬虫工程师,因为能通过前面的重重关卡来到这里的,技术都是有保证的。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31561288/viewspace-2375056/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-11-07

  • 博文量
    30
  • 访问量
    13995