背景:近期工作需要,要缩短多个程序的运行时间。
目标:做到同时运行多个函数,提高效率。
方案:查阅资料后,发现可以使用线程,进程,协程来提高效率。(包括线程池,进程池)
【一】 多线程
【二】 线程池
tips:
#需要处理列表中的所有数据
url_list =[url1,ulr2,-----,url100]
工作中需要对一个列表中的所有数据进行处理,直接用多线程的话,一开始数据数对不上,后来拆分成多个列表进行处理的话,感觉很麻烦。所以开始使用线程池。
参考原文
1、下载运行包
pip install threadpool
2、参数说明
pool = ThreadPool(poolsize)
定义了一个线程池,表示最多可以创建poolsize这么多线程;
requests = makeRequests(some_callable, list_of_args, callback)
调用makeRequests创建了要开启多线程的函数,以及函数相关参数和回调函数,其中回调函数可以不写,default是无,也就是说makeRequests只需要2个参数就可以运行;
for req in requests:
pool.putRequest(req)
是将所有要运行多线程的请求扔进线程池;
pool.wait()
第四行是等待所有的线程完成工作后退出
3、对比效果
#创建一个长度30的列表
a = []
n =1
while n<=30:
a.append(n)
n +=1
#创建一个存储位置
c = []
#定义一个对单一数据处理的函数,将处理后的数据存储在c中
def x(aaa):
u = (12+aaa)+aaa%2
c.append(u)
print ("Hello ",aaa)
time.sleep(1)
串行操作:
start_time = time.time()
for i in a:
x(i)
print(c)
print ('%d second'% (time.time()-start_time))
串行结果
运行时间
结果
线程池操作:
start_time = time.time()
#一次跑10个线程
pool = threadpool.ThreadPool(10)
#运行函数x,参数为a
requests = threadpool.makeRequests(x, a)
[pool.putRequest(req) for req in requests]
pool.wait()
print ('%d second'% (time.time()-start_time))
线程池结果
运行时间
结果
运用线程池可以批量处理数据,节省时间
4、多个参数的设置。
实际工作中定义的函数不止包含一个参数,那么在调用线程池的时候需要对参数做预处理。
if __name__ == '__main__':
# 方法1 --- 存入列表
lst_vars_1 = ['1', '2', '3']
lst_vars_2 = ['4', '5', '6']
func_var = [(lst_vars_1, None), (lst_vars_2, None)]
# 方法2 --- 存成字典
dict_vars_1 = {'m':'1', 'n':'2', 'o':'3'}
dict_vars_2 = {'m':'4', 'n':'5', 'o':'6'}
func_var = [(None, dict_vars_1), (None, dict_vars_2)]
pool = threadpool.ThreadPool(2)
requests = threadpool.makeRequests(hello, func_var)
[pool.putRequest(req) for req in requests]
pool.wait()
参数处理:
list1 = [1,2,3,4,5,6]
list2 = [7,6,5,4,3,2]
def X(a,b,c=3,d=4,e=5):
time.sleep(1)
print(a+b+c+d+e)
#构建参数组
data1 =[ {
'a':i,
'b':j,
'c':3,
'd':4
} for i,j in zip(list1,list2) ]
data2 = [(None,i) for i in data1]
#调用线程池
start_time = time.time()
pool = threadpool.ThreadPool(2)
requests = threadpool.makeRequests(X, data2)
[pool.putRequest(req) for req in requests]
pool.wait()
print ('%d second'% (time.time()-start_time))
5、编写线程池函数。
实际工作中可以将线程池编写如函数直接进行调用。
参数包含(函数,运行所需的参数,线程数量)
def Run_threadpool (function,data,number):
pool = threadpool.ThreadPool(number)
requests = threadpool.makeRequests(function, data)
[pool.putRequest(req) for req in requests]
pool.wait()
6、异常can’t start new thread
我在跑某个程序时,创建线程池到一个方法中,这个方法会被循环调用,即使局部变量pool被覆盖,但是之前创建的线程依然存在,所以线程炸了
pool = threadpool.ThreadPool(10)
把上面的代码放进class的构造函数中,或者保证它只执行一次
python中线程的正确用法是,按需创建线程,重复使用有限的线程