杨建荣的学习笔记

每天坚持一点点,个人微信公众号: jianrong-notes 个人邮箱:jeanrock@126.com

  • 博客访问: 13347235
  • 博文数量: 1498
  • 用 户 组: 普通用户
  • 注册时间: 2012-05-14 23:24
  • 认证徽章:
个人简介

每日发文,或技术、或总结,偶有日间小事也以为记,谓之学习笔记,成年累月1400多天,中间几乎没有间断,要旨只有一个:学习交流,共同进步 。 学习笔记精华整理,个人新书《Oracle DBA工作笔记》已开售,在京东,当当,亚马逊,淘宝,天猫均有售,欢迎选购。

文章分类

全部博文(1498)

文章存档

2018年(112)

2017年(321)

2016年(358)

2015年(360)

2014年(278)

2013年(48)

2012年(21)

分类: 开源技术

2017-12-18 12:43:40

line

之前也写了一些简单的Python程序,对于多线程的并发一直没有涉及,今天决定先突破一下,把这个部分的内容先快速的掌握,然后在这个基础上细化改进。

我的好友冰川擅长Python技术,所以就拿来主义,参考了他的文章。

python基础16-并发编程(1)

Python的程序性能一直受到诟病,但是功能,扩展性上还是具有很大的优势,程序中有一部分的概念就是并发,多线程相关的,所以我们也算是大跃进一下。

说到Python的性能,GIL是需要了解的,这是一个全局解释器锁,保证在同一时刻只有一个线程在运行,在保证线程安全的同时,性能上会受到一定的影响。我们简单来做一个案例,在上面的文章中已经有了,我们简单改一下。测试一把。

首先要准备一个文件urls.txt

比如我的技术博客,我随便选择了两篇文章的下标,然后就可以循环生成一大批的urls.txt内容来。

for i in {2101076..2148323}

do

echo "http://blog.itpub.net/23718752/viewspace-"$i

done

要测试url的信息,我们需要引入一个模块requests,通过发送请求来得到反馈的结果,如果是在200,300这样的状态值,就说明是可访问的,否则就是不可方案问。

需要注意的地方或者是一些小技巧,我们可以使用strip()来得到一个串

>>> "http://www.jeanron100.com".strip()

'http://www.jeanron100.com'

,然后使用requests.get方法来得到结果值

>>> requests.get('http://www.baidu.com')

<Response [200]>

最终的状态值可以使用status_code属性来得到。

>>> requests.get('http://www.baidu.com').status_code

200

明白了这些要点,Python程序就会容易很多。

直接附上源程序:

#!/usr/bin/evn python

import requests

import time

def get_site_code(url):

r = requests.get(url)

status = r.status_code

line = url + ' ' + str(status)

with open('/tmp/site_stauts.txt', 'a+') as f:

f.writelines(line + 'n')

if __name__ == '__main__':

print 'starting at:', time.ctime()

for url in open('urls.txt'):

url = url.strip()

get_site_code(url)

print 'Done at:', time.ctime()

整个过程,大概耗时37秒钟,urls大概是30多个。

# python a.pl

starting at: Wed Dec 6 07:00:34 2017

Done at: Wed Dec 6 07:01:11 2017

我们再来看看多线程的部分,毫无疑问,我们需要一个线程相关的模块,在这里就是threading

我们可以直接开启多个线程,不做线程的粒度控制,比如现在有30个请求,直接就是30个线程,暂时没有做成线程池的那种模式,初始化的时候,可以使用如下的方式来初始化线程。

threading.Thread(target=get_site_code, args=(url,))

使用start方法启动线程

threads[i].start()

如果一个线程在执行过程中要调用另外一个线程,需要等到它完成以后才能接着执行,在这里就是join方法。

threads[i].join()

源程序如下:

#!/usr/bin/evn python

import requests

import time

import threading

def get_site_code(url):

r = requests.get(url)

status = r.status_code

line = url + ' ' + str(status)

with open('/tmp/site_stauts.txt', 'a+') as f:

f.writelines(line + 'n')

if __name__ == '__main__':

print 'starting at:', time.ctime()

threads = []

for url in open('urls.txt'):

url = url.strip()

t = threading.Thread(target=get_site_code, args=(url,))

threads.append(t)

for i in range(len(threads)):

threads[i].start()

for i in range(len(threads)):

threads[i].join()

print 'Done at:', time.ctime()

使用了多线程之后,耗时大概是3秒钟,提高了10多倍,收益还是很大的。

# python b.pl

starting at: Wed Dec 6 07:24:36 2017

Done at: Wed Dec 6 07:24:39 2017

随后会考虑从其他的角度来持续的改进,改进的空间依旧很大。

阅读(4752) | 评论(1) | 转发(1) |
给主人留下些什么吧!~~
评论热议
请登录后评论。

登录 注册