前言

在CPU上处理大规模数据时,亟需并行以节省时间。记录一下在python并行中我通常使用的package: Multiprocssing。这个例子很简单,但足够作为模板去拓展。

直接上例子

import numpy as np
from multiprocessing import Pool
import time
import multiprocessing as mp

a = np.arange(20)
b = np.arange(10)


#参与并行的方法
def ab(i, j, mp_lst, id):
    time.sleep(2)
    mp_lst.append((i,j))
    print("{} finished!".format(id))

#并行必须写在main下,否则报错
if __name__ == "__main__":
	# 多进程共享变量需要manager
    manager = mp.Manager
    # list不会按执行顺序存储,只会按照每个进程的结束顺序存储,需要有序的话,需要后续主动排序
    mp_lst = manager().list()
    p = Pool()
    for id, (i, j) in enumerate(zip(a, b)):
        p.apply_async(ab, args=(i, j, mp_lst, id, ))
    p.close()
    p.join()
    print(mp_lst)

以上例子可能需要参考:mp.Manager,p.apply_async, p.close(),p.join()