ITPub博客

首页 > 应用开发 > Python > 反爬虫系列-JS参数篇(1)

反爬虫系列-JS参数篇(1)

原创 Python 作者:zone7 时间:2019-01-23 14:10:05 0 删除 编辑

目录

  • 瞎比比

  • 举个栗子?

  • 开始分析

  • 寒假作业

  • 又瞎比比

瞎比比

之前写了《scrapy遇上ajax,抓取QQ音乐周杰伦专辑与歌词(6)》这篇文章,其中有些参数,如果不查看其 JS 代码,是无法知道它是怎么来的。说到这里,我们来看看啥是反爬虫?某度如是说:

他们根据ip访问频率,浏览网页速度,账户登录,输入验证码,flash封装,ajax混淆,js加密,图片,css混淆等五花八门的技术,来对反网络爬虫。

这篇文章还不涉及加密,只是查看一些参数的所以然,所以说还是比较基础的,后面再来说说加密。

举个栗子?

那么现在我们就来说说,这些参数是怎么来的。下图是我上一篇文章的一个分析点。例如:jsonpCallback

在开始分析之前,我默认你已经掌握了 JavaScript ,并且达到了一定的程度,否则你是看不懂 JS 代码的。

开始分析

请将你的 Chrome 浏览器打开至如上图效果,即是右键 --> 检查 ,到这一步呢,你是还没有打开图中的红框部分的。这时候,再按一下: Ctrl + Shift + F(Windows)红框部分就出来了,Mac 的快捷键我也不知道,如果你知道,还烦请告诉一下我。

接下来呢,在红框部分的搜索栏中输入:jsonCallback

现在,下面出现了一堆搜索内容。我们需要做的,就是从这些代码中找到我们想要的东西 -- 即是 jsonCallback 是怎么来的?有时候,运气好,你在第一条搜索结果中就找到了答案,运气差点,可能就得翻完所有代码。我们双击选择第一条结果。

未格式化的代码可读性是很差的,看了也基本懵逼。现在,在格式化的代码中搜索:jsonCallback

如果没有看到想要的结果,则继续查找下一个,或者下一个代码文件


查找过程我就不一一解说了,最后我们在第一个文件中就能找到我们想要的结果,如下图:

到这一步,结果就出来了,其实就是一些随机数的拼接。

寒假作业

分析下图中,参数 entryIds 是怎么来的?(这个参数要翻页之后,才会出现)


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31556697/viewspace-2564543/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2018-09-29

  • 博文量
    19
  • 访问量
    22522