ITPub博客

首页 > 应用开发 > Python > 大数据获取案例:Python网络爬虫实例

大数据获取案例:Python网络爬虫实例

原创 Python 作者:前端老司机 时间:2020-08-15 16:14:52 0 删除 编辑

网络爬虫:

网络爬虫(又称为网页 蜘蛛,网络机器人,在 FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁、自动索引、模拟程序或者 蠕虫

以上是网络爬虫的百度,下面开始介绍使用Python进行网络爬虫来获取数据。

用来获取新冠肺炎的实时数据。
使用的工具 PyCharm
新建 Python文件,命名为 get_data
使用爬虫最常用的 request模块

第一部分:

获取网页信息:

import requests
url = "(url)

第二部分:

可以观察数据的特点:
数据包含在 script标签里,使用 xpath来获取数据。
导入一个模块 from lxml import etree
生成一个 html对象并且进行解析
可以得到一个类型为 list的内容,使用第一项就可以得到全部内容
接下来首先获取 component的内容,这时使用 json模块,将字符串类型转变为字典( Python的数据结构)
为了获取国内的数据,需要在 component中找到 caseList

接下来上代码:

from lxml import etreeimport json# 生成HTML对象html = etree.HTML(response.text)
result = html.xpath('//script[@type="application/json"]/text()')
result = result[0]# json.load()方法可以将字符串转化为python数据类型result = json.loads(result)
result_in = result['component'][0]['caseList'] 

第三部分:

将国内的数据存储到 excel表格中:
使用 openyxl模块, import openpyxl
首先创建一个工作簿,在工作簿下创建一个工作表
接下来给工作表命名和给工作表赋予属性

代码如下:

import openpyxl#创建工作簿wb = openpyxl.Workbook()#创建工作表ws = wb.active
ws.title = "国内疫情"ws.append(['省份', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量', '死亡增量', '治愈增量', '现有确诊增量'])'''
area --> 大多为省份
city --> 城市
confirmed --> 累计
crued --> 值域
relativeTime -->
confirmedRelative --> 累计的增量
curedRelative --> 值域的增量
curConfirm --> 现有确镇
curConfirmRelative --> 现有确镇的增量
'''for each in result_in:
    temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                 each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                 each['curConfirmRelative']]    for i in range(len(temp_list)):        if temp_list[i] == '':
            temp_list[i] = '0'
    ws.append(temp_list)
wb.save('./data.xlsx')

第四部分:

将国外数据存储到 excel中:
componentglobalList中得到国外的数据
然后创建 excel表格中的 sheet即可,分别表示不同的大洲

代码如下:

data_out = result['component'][0]['globalList']for each in data_out:
    sheet_title = each['area']    # 创建一个新的工作表
    ws_out = wb.create_sheet(sheet_title)
    ws_out.append(['国家', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量'])    for country in each['subList']:
        list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                     country['curConfirm'], country['confirmedRelative']]        for i in range(len(list_temp)):            if list_temp[i] == '':
                list_temp[i] = '0'
        ws_out.append(list_temp)
wb.save('./data.xlsx')

整体代码如下:

import requestsfrom lxml import etreeimport jsonimport openpyxl
 
url = "(url)#print(response.text)# 生成HTML对象html = etree.HTML(response.text)
result = html.xpath('//script[@type="application/json"]/text()')
result = result[0]# json.load()方法可以将字符串转化为python数据类型result = json.loads(result)#创建工作簿wb = openpyxl.Workbook()#创建工作表ws = wb.active
ws.title = "国内疫情"ws.append(['省份', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量', '死亡增量', '治愈增量', '现有确诊增量'])
result_in = result['component'][0]['caseList']
data_out = result['component'][0]['globalList']'''
area --> 大多为省份
city --> 城市
confirmed --> 累计
crued --> 值域
relativeTime -->
confirmedRelative --> 累计的增量
curedRelative --> 值域的增量
curConfirm --> 现有确镇
curConfirmRelative --> 现有确镇的增量
'''for each in result_in:
    temp_list = [each['area'], each['confirmed'], each['died'], each['crued'], each['curConfirm'],
                 each['confirmedRelative'], each['diedRelative'], each['curedRelative'],
                 each['curConfirmRelative']]    for i in range(len(temp_list)):        if temp_list[i] == '':
            temp_list[i] = '0'
    ws.append(temp_list)# 获取国外疫情数据for each in data_out:
    sheet_title = each['area']    # 创建一个新的工作表
    ws_out = wb.create_sheet(sheet_title)
    ws_out.append(['国家', '累计确诊', '死亡', '治愈', '现有确诊', '累计确诊增量'])    for country in each['subList']:
        list_temp = [country['country'], country['confirmed'], country['died'], country['crued'],
                     country['curConfirm'], country['confirmedRelative']]        for i in range(len(list_temp)):            if list_temp[i] == '':
                list_temp[i] = '0'
        ws_out.append(list_temp)
wb.save('./data.xlsx')

结果如下:

国内:


国外:


推荐 :

  • 020 持续更新,精品小圈子每日都有新内容,干货浓度极高。
  • 结实人脉、讨论技术 你想要的这里都有!
  • 抢先入群,跑赢同龄人!(入群无需任何费用)
  • 点击此处,与Python开发大牛一起交流学习
  • 群号:858157650

申请即送:

  • Python软件安装包,Python实战教程
  • 资料免费领取,包括 Python基础学习、进阶学习、爬虫、人工智能、自动化运维、自动化测试等


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69976894/viewspace-2712010/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
前端老菜鸟

注册时间:2020-06-10

  • 博文量
    22
  • 访问量
    10528