ITPub博客

首页 > 应用开发 > Python > 好程序员Python培训分享Python爬虫相关框架

好程序员Python培训分享Python爬虫相关框架

原创 Python 作者:好程序员 时间:2020-07-28 15:14:59 0 删除 编辑

   好程序员Python 培训分享 Python 爬虫相关框架 Python 的爬虫框架就是一些爬虫项目的半成品。比如我们可以将一些常见爬虫功能的实现代码写好,然后留下一些接口,在做不同的爬虫项目时,我们只需要根据实际情况,只需要写少量需要变动的代码部分,并按照需要调用这些接口,即可以实现一个爬虫项目。常见框架:

   1.Scrapy 框架是一套比较成熟的 Python 爬虫框架,是使用 Python 开发的快速、高层次的信息爬取框架,可以高效的爬取 web 页面并提取出结构化数据。

   2.Crawley 框架也是 Python 开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。

   3.Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。

   4.newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。

   5.Python-goose 框架可提取的信息包括:文章主体内容、文章主要图片、文章中嵌入的任何 Youtube/Vimeo 视频、元描述、元标签。在 Python 中,开源爬虫框架很多,我们自己也可以写一些。我们并不需要掌握每一种爬虫框架,只需要深入掌握一种即可。大部分爬虫框架实现方式都是大同小异,建议学习最流行的 Python 爬虫框架—— Scrapy

   Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说 , 网络抓取 )所设计的,也可以应用在获取 API 所返回的数据(例如 Amazon Associates Web Services )或者通用的网络爬虫。 Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。

   Scrapy 主要包括了以下组件:

   1. 引擎( Scrapy

   2. 调度器( Scheduler

   3. 下载器( Downloader

   4. 爬虫( Spiders

   5. 项目管道( Pipeline

   6. 下载器中间件( Downloader Middlewares

   7. 爬虫中间件( Spider Middlewares

   8. 调度中间件( Scheduler Middewares

   Scrapy 运行流程大概如下:

   1. 引擎从调度器中取出一个链接( URL )用于接下来的抓取

   2. 引擎把 URL 封装成一个请求( Request )传给下载器

   3. 下载器把资源下载下来,并封装成应答包( Response

   4. 爬虫解析 Response

   5. 解析出实体( Item , 则交给实体管道进行进一步的处理

   6. 解析出的是链接( URL , 则把 URL 交给调度器等待抓取

   以上就是我们常见的Python 爬虫框架及简单介绍,当自己写爬虫时可根据不同需求应用不同的框架。

 


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69913864/viewspace-2707475/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论

注册时间:2019-03-20

  • 博文量
    342
  • 访问量
    154352