ITPub博客

首页 > 大数据 > 数据挖掘 > 如何处理识别出的网络爬虫

如何处理识别出的网络爬虫

原创 数据挖掘 作者:太阳小诸葛 时间:2019-02-02 14:46:14 0 删除 编辑

天下没有什么事能难倒网络爬虫,无论是你设置了接口频率限制,还是User Agent判断,统统没有卵用,其有ip库快速切换,User Agent照着客户端的请求规则适配,更甚者搞个服务专门hack token,提供给网络爬虫用,分分钟破解,反爬之路任重而道远

.如何处理识别出的网络爬虫

工具/原料

  • 电脑
  • 浏览器
  • 你的网站

方法/步骤

  1. 1

    技术压制

    不要一开始就设置得很高,否则别人一上来把你的爬虫机制反掉,你就没有还手的招数了。要循序渐进。

    .如何处理识别出的网络爬虫
  2. 2

    引狼入室

    一开始,你最好假装自己的系统是毫无防护的,让别人用最简单的网络爬虫代码来爬你,这时候,网络爬虫的特征通常很明显,甚至不经过任何伪装

    .如何处理识别出的网络爬虫
  3. 3

    以假乱真

    这些数据跟真实数据还可以一模一样,但是里面一定要有几个字段是随机乱写的,难以发现,却又破坏规则。

    .如何处理识别出的网络爬虫
  4. 4

    放水

    只要对方不是恶意攻击或者抓取涉及机密的内容,站长大可以放他一马。不为难彼此。

    .如何处理识别出的网络爬虫
    END

注意事项

  • 爬虫跟反爬虫是永不止息的战争,千万不要做涉及违法的事情
  • 爬虫健康运行离不开代理ip的支持,可选择如太阳软件之类的辅助软件来使用


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31561288/viewspace-2565419/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-11-07

  • 博文量
    44
  • 访问量
    44314