ITPub博客

首页 > 应用开发 > Python > Python培训教程分享:有哪些值得使用的爬虫开源项目?

Python培训教程分享:有哪些值得使用的爬虫开源项目?

原创 Python 作者:千锋教育qyf 时间:2021-11-29 14:42:46 0 删除 编辑

  相信很多同学在 学习Python技术的时候,都有学习到Python爬虫技术,爬虫技术在各大互联网公司都是非常常见的,可以帮助我们获取各种网站的信息,比如微博、B站、知乎等,本篇 Python培训教程分享为大家整理了几个Python爬虫项目,我们一起来看看有哪些值得使用的爬虫开源项目?

src=http___inews.gtimg

  有哪些值得使用的爬虫开源项目?

  1、爬虫集合

  收集了各种爬虫,包括b站、博客园、百度百科、百度云网盘、Boss、备课、豆瓣等,你能想到的国内外网站爬虫,都可以先来看看这里有没有开源的爬虫。

  2、Python爬虫教程

  从0到1学习Python爬虫,包括浏览器抓包,手机APP抓包,如fiddler、mitmproxy、各种爬虫涉及的模块的使用,如:requests、beautifulSoup、selenium、appium、scrapy等,以及验证码识别。

  3、微博爬虫

  这个开源项目,可以持续爬取一个或多个新浪微博用户的数据,并将结果信息写入文件或数据库,写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。

  支持下载微博中的图片和视频,具体可下载文件如下:

  原创微博中的原始图片、转发微博中的原始图片、原创微博中的视频、转发微博中的视频、原创视频Live Photo中的视频等。

  4、智能爬虫平台

  这个开源平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台,可以再该平台配置各种爬虫。

  5、Java爬虫

  Spiderman是一个Java开源Web数据抽取工具,它能够收集指定的Web页面并从这些页面中提取有用的数据,它主要是运用了像XPath,正则表达式等这些技术来实现数据抽取。

  6、爬虫大全

  包含了多个网站、电商数据爬虫,包含:淘宝商品、微信公众号、大众点评、招聘网站、闲鱼、包图网等。


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69996644/viewspace-2844382/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
千锋教育隶属于北京千锋互联科技有限公司,以“初心至善,匠心育人”为核心价值观,致力于打造职业教育全产业链人才服务平台,公司总部位于北京,拥有全国一体化就业保障服务,成为学员信赖的职业教育品牌。 每年有数百万名学员受益于千锋组织的技术研讨会、技术培训课、网络公开课及免费教学视频。

注册时间:2021-03-17

  • 博文量
    527
  • 访问量
    136325