ITPub博客

首页 > IT职业 > IT生活 > 请求对象添加随机代理IP—反反爬策略

请求对象添加随机代理IP—反反爬策略

原创 IT生活 作者:芝麻小A 时间:2019-01-03 14:42:50 0 删除 编辑

【芝麻IP代理】爬虫的目的就是为了模拟点击浏览器操作的行为,在反反爬策略中,最基础的就是更换User-Agent。User-Agent的作用是方便服务器识别,当前请求对象的身份信息。具体更换操作可以翻阅上一篇反反爬策略。

  无法从身份属性来识别是否是机器操作,网站服务器只能通过其他信息来辨别,区别机器和正常用户。识别IP访问频率,判断cookie信息,添加验证码操作等都是常见的网站反爬操作。

   今天,主要学习的就是突破网站根据IP访问频率的反反爬策略:随机更换请求对象的IP信息。

  Scrapy中,更换请求对象的IP信息非常的方便,只需要在request对象进入下载器之前,修改request对象的参数信息。

  所以我们需要在下载器中间件 Download_middleware中自定义一个下载器中间件ProxiesMiddleware,在process_request()函数中修改request对象信息。

  其中 PROXIES_LIST 是构建的代理列表。

  process_request的参数分别是request当前请求对象,spider当前的爬虫对象。

  返回None,Scrapy将继续处理该Request;

  返回Request对象时,这个Reuqest会重新放到调度队列里,更低优先级的process_reqyest()函数不会执行;

  返回Response对象时,直接将Response对象发送给Spider来处理。

  现在每次发送一次请求,请求对象的IP信息就会从配置中的代理IP池中随机挑选一个。不同的IP就会迷惑服务器监控,不会对本次请求做反爬处理了。至此,我们的爬虫就能顺顺当当的获取数据了。好了,本期结束,大家散会吧。

  NO! NO! NO!这还远远不够,这才只是代理的第一步。没有哪个代理是能保证百分之百成功的。付费代理也好,免费代理也好,即使是高匿代理也只不过是提高了防反爬的几率,并没有说一定会成功的。

  请求失败的解决方案有两种:

  1. 多试几次,直到请求成功,不成功就报错。

  2. 换一个IP试试,直到换成请求成功的代理。对代理质量要求必须高。如果代理池质量很差,项目就会陷入死循环中。

  解决逻辑是: 设置重试次数,达到指定次数就换IP。

  幸运的是Scrapy框架中自带了处理失败请求的中间件RetryMiddleware。

  注释的部分是添加的加入代理的逻辑,需要继承RetryMiddleware之后再重写。

  在settings中设置最大重试次数以及需要进行重试的异常状态码列表。

  关闭Scrapy自带的RetryMiddleware中间件,开启自定义的Retry中间件。

  启动项目测试。遇到失败的请求会重新发送,超过最大重试次数以后返回一个空的数据。

  这就是我们预期的结果了,剩下的就是提高代理池的质量,就能最大程度的保证爬虫的可用性了。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31561243/viewspace-2295439/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-11-07

  • 博文量
    24
  • 访问量
    14416