python多进程及进程间通信
- 0 简述
- 1 多进程的使用
- 1.1 导入进程包
- 1.2 Process进程类的说明
- 1.3 多进程完成多任务的代码
- 2 获取进程编号
- 2.1 获取当前进程编号
- 2.2 获取当前父进程编号
- 3 进程执行带有参数的任务
- 3.1 进程执行带有参数的任务的介绍
- 3.2 args参数的使用
- 3.3 kwargs参数的使用
- 4 进程的注意点
- 4.1 进程之间不共享全局变量
- 4.2 主进程会(默认)等待所有的子进程执行结束再结束,但是也可以使用join
- 5 其他多进程的实现方式(以后展开)
- 5.1 继承Process类创建子进程
- 5.2 进程池(重点,待编写)
- 5.3 os.fork()
- 6 进程间通信
- 6.1 队列实现进程间的通信
- 6.2 管道实现进程间通信
0 简述
Process 类的实例常用的属性和方法有:
属性/方法 | 说明 |
name | 当前进程实例的别名,默认为 Process-N,N 为从 1 开始递增的整数 |
pid | 当前进程实例的 PID 值 |
is_alive() | 判断进程实例是否还在执行 |
join([timeout]) | 是否等待进程实例执行结束,或等待多少秒 |
start() | 启动进程实例(创建子进程) |
run() | 如果没有给定 target 参数,对这个对象调用 start() 方法时,就将执行对象中的 run() 方法 |
terminate() | 不管任务是否完成,立即终止 |
1 多进程的使用
1.1 导入进程包
#导入进程包
import multiprocessing
1.2 Process进程类的说明
Process([group [, target [, name [, args [, kwargs]]]]])
group:指定进程组,目前只能使用None
target:执行的目标任务名
name:进程名字
args:以元组方式给执行任务传参
kwargs:以字典方式给执行任务传参
Process创建的实例对象的常用方法:
start():启动子进程实例(创建子进程)
join():等待子进程执行结束
terminate():不管任务是否完成,立即终止子进程
Process创建的实例对象的常用属性:
name:当前进程的别名,默认为Process-N,N为从1开始递增的整数
1.3 多进程完成多任务的代码
import multiprocessing
import time
# 跳舞任务
def dance():
for i in range(5):
print("跳舞中...")
time.sleep(0.2)
# 唱歌任务
def sing():
for i in range(5):
print("唱歌中...")
time.sleep(0.2)
if __name__ == '__main__':
# 创建跳舞的子进程
# group: 表示进程组,目前只能使用None
# target: 表示执行的目标任务名(函数名、方法名)
# name: 进程名称, 默认是Process-1, .....
dance_process = multiprocessing.Process(target=dance, name="myprocess1")
sing_process = multiprocessing.Process(target=sing)
# 启动子进程执行对应的任务
dance_process.start()
sing_process.start()
执行结果:
唱歌中...
跳舞中...
唱歌中...
跳舞中...
唱歌中...
跳舞中...
唱歌中...
跳舞中...
唱歌中...
跳舞中...
2 获取进程编号
2.1 获取当前进程编号
os.getpid() 表示获取当前进程编号
【注意】:
1 要先import os
2 Python中查看函数的命令是help,查看对象说明是dir
如:dir(os),help(os.getpid),函数后的括号不能带
示例代码:
import multiprocessing
import time
import os
#跳舞任务
def dance():
# 获取当前进程的编号
print("dance:", os.getpid())
# 获取当前进程
print("dance:", multiprocessing.current_process())
for i in range(5):
print("跳舞中...")
time.sleep(0.2)
# 扩展:根据进程编号杀死指定进程
os.kill(os.getpid(), 9)
#唱歌任务
def sing():
# 获取当前进程的编号
print("sing:", os.getpid())
# 获取当前进程
print("sing:", multiprocessing.current_process())
for i in range(5):
print("唱歌中...")
time.sleep(0.2)
if __name__ == '__main__':
# 获取当前进程的编号
print("main:", os.getpid())
# 获取当前进程
print("main:", multiprocessing.current_process())
# 创建跳舞的子进程
# group: 表示进程组,目前只能使用None
# target: 表示执行的目标任务名(函数名、方法名)
# name: 进程名称, 默认是Process-1, .....
dance_process = multiprocessing.Process(target=dance, name="myprocess1")
sing_process = multiprocessing.Process(target=sing)
# 启动子进程执行对应的任务
dance_process.start()
sing_process.start()
执行结果:
main: 70763
main: <_MainProcess(MainProcess, started)>
dance: 70768
dance: <Process(myprocess1, started)>
跳舞中...
sing: 70769
sing: <Process(Process-2, started)>
唱歌中...
唱歌中...
唱歌中...
唱歌中...
唱歌中...
几个注意的点:
1 os.kill()函数:kill(pid, signal, /),无返回值
2 os.getpid() 函数:返回进程ID,是一个整数
3 multiprocessing.current_procecss() 函数: 返回的是当前进程的进程对象。
2.2 获取当前父进程编号
os.getppid() 表示获取当前父进程编号
import multiprocessing
import time
import os
# 跳舞任务
def dance():
# 获取当前进程的编号
print("dance:", os.getpid())
# 获取当前进程
print("dance:", multiprocessing.current_process())
# 获取父进程的编号
print("dance的父进程编号:", os.getppid())
for i in range(5):
print("跳舞中...")
time.sleep(0.2)
# 扩展:根据进程编号杀死指定进程
os.kill(os.getpid(), 9)
# 唱歌任务
def sing():
# 获取当前进程的编号
print("sing:", os.getpid())
# 获取当前进程
print("sing:", multiprocessing.current_process())
# 获取父进程的编号
print("sing的父进程编号:", os.getppid())
for i in range(5):
print("唱歌中...")
time.sleep(0.2)
if __name__ == '__main__':
# 获取当前进程的编号
print("main:", os.getpid())
# 获取当前进程
print("main:", multiprocessing.current_process())
# 创建跳舞的子进程
# group: 表示进程组,目前只能使用None
# target: 表示执行的目标任务名(函数名、方法名)
# name: 进程名称, 默认是Process-1, .....
dance_process = multiprocessing.Process(target=dance, name="myprocess1")
sing_process = multiprocessing.Process(target=sing)
# 启动子进程执行对应的任务
dance_process.start()
sing_process.start()
执行结果:
main: 70860
main: <_MainProcess(MainProcess, started)>
dance: 70861
dance: <Process(myprocess1, started)>
dance的父进程编号: 70860
跳舞中...
sing: 70862
sing: <Process(Process-2, started)>
sing的父进程编号: 70860
唱歌中...
唱歌中...
唱歌中...
唱歌中...
唱歌中...
3 进程执行带有参数的任务
3.1 进程执行带有参数的任务的介绍
前面我们使用进程执行的任务是没有参数的,假如我们使用进程执行的任务带有参数,如何给函数传参呢?
Process类执行任务并给任务传参数有两种方式:
args 表示以元组的方式给执行任务传参
kwargs 表示以字典方式给执行任务传参
3.2 args参数的使用
示例代码:
import multiprocessing
import time
# 带有参数的任务
def task(count):
for i in range(count):
print("任务执行中..")
time.sleep(0.2)
else:
print("任务执行完成")
if __name__ == '__main__':
# 创建子进程
# args: 以元组的方式给任务传入参数
sub_process = multiprocessing.Process(target=task, args=(5,))
sub_process.start()
执行结果:
任务执行中..
任务执行中..
任务执行中..
任务执行中..
任务执行中..
任务执行完成
3.3 kwargs参数的使用
示例代码
import multiprocessing
import time
# 带有参数的任务
def task(count):
for i in range(count):
print("任务执行中..")
time.sleep(0.2)
else:
print("任务执行完成")
if __name__ == '__main__':
# 创建子进程
# kwargs: 表示以字典方式传入参数
sub_process = multiprocessing.Process(target=task, kwargs={"count": 3})
sub_process.start()
执行结果:
任务执行中..
任务执行中..
任务执行中..
任务执行完成
4 进程的注意点
4.1 进程之间不共享全局变量
import multiprocessing
import time
# 定义全局变量
g_list = list()
# 添加数据的任务
def add_data():
for i in range(5):
g_list.append(i)
print("add:", i)
time.sleep(0.2)
# 代码执行到此,说明数据添加完成
print("add_data:", g_list)
def read_data():
print("read_data", g_list)
if __name__ == '__main__':
# 创建添加数据的子进程
add_data_process = multiprocessing.Process(target=add_data)
# 创建读取数据的子进程
read_data_process = multiprocessing.Process(target=read_data)
# 启动子进程执行对应的任务
add_data_process.start()
# 主进程等待添加数据的子进程执行完成以后程序再继续往下执行,读取数据
add_data_process.join()
read_data_process.start()
print("main:", g_list)
# 总结: 多进程之间不共享全局变量
执行结果:
add: 0
add: 1
add: 2
add: 3
add: 4
add_data: [0, 1, 2, 3, 4]
main: []
read_data []
进程之间不共享全局变量的解释图:
创建子进程会对主进程资源进行拷贝,也就是说子进程是主进程的一个副本,好比是一对双胞胎,之所以进程之间不共享全局变量,是因为操作的不是同一个进程里面的全局变量,只不过不同进程里面的全局变量名字相同而已。
4.2 主进程会(默认)等待所有的子进程执行结束再结束,但是也可以使用join
示例1:
假如我们现在创建一个子进程,这个子进程执行完大概需要2秒钟,现在让主进程执行0.5秒钟就退出程序,查看一下执行结果,示例代码如下:
import multiprocessing
import time
# 定义进程所需要执行的任务
def task():
for i in range(10):
print("任务执行中...")
time.sleep(0.2)
if __name__ == '__main__':
# 创建子进程
sub_process = multiprocessing.Process(target=task)
sub_process.start()
# 主进程延时0.5秒钟
time.sleep(0.5)
print("over")
exit()
# 总结: 主进程会等待所有的子进程执行完成以后程序再退出
执行结果:
任务执行中...
任务执行中...
任务执行中...
over
任务执行中...
任务执行中...
任务执行中...
任务执行中...
任务执行中...
任务执行中...
任务执行中...
通过上面代码的执行结果,我们可以得知: 主进程会等待所有的子进程执行结束再结束。
假如我们要保证主进程不再等待子进程而结束,该怎么办呢。即如何保证主进程正常结束?
我们可以设置守护主进程 或者 在主进程退出之前让子进程销毁
守护主进程:
守护主进程就是主进程退出子进程销毁不再执行
子进程销毁:
子进程执行结束
示例:(1 设置守护进程)
import multiprocessing
import time
# 定义进程所需要执行的任务
def task():
for i in range(10):
print("任务执行中...")
time.sleep(0.2)
if __name__ == '__main__':
# 创建子进程
sub_process = multiprocessing.Process(target=task)
# 设置守护主进程,主进程退出子进程直接销毁,子进程的生命周期依赖与主进程
sub_process.daemon = True
sub_process.start()
time.sleep(0.5)
print("over")
exit()
# 总结: 主进程会等待所有的子进程执行完成以后程序再退出
# 如果想要主进程退出子进程销毁,可以设置守护主进程或者在主进程退出之前让子进程销毁
示例:(2销毁子进程)
import multiprocessing
import time
# 定义进程所需要执行的任务
def task():
for i in range(10):
print("任务执行中...")
time.sleep(0.2)
if __name__ == '__main__':
# 创建子进程
sub_process = multiprocessing.Process(target=task)
sub_process.start()
time.sleep(0.5)
print("over")
# 让子进程销毁
sub_process.terminate()
exit()
总结: 主进程会等待所有的子进程执行完成以后程序再退出
如果想要主进程退出子进程销毁,可以设置守护主进程或者在主进程退出之前让子进程销毁
示例二:
from multiprocessing import Process
from time import ctime,sleep
import os
def text(pause):
for i in range(3):
print('Child Process %s is running,at %s.' % (os.getpid(),ctime()))
sleep(pause)
if __name__ == '__main__':
print('Main Process %s is running,at %s.' % (os.getpid(),ctime()))
p = Process(target=text,args=(2,))
p.start()
if not p.is_alive():
print('Main Process %s end,at %s.' % (os.getpid(),ctime()))
结果
Main Process 5540 is running,at Sat Aug 17 13:22:51 2019.
Child Process 1236 is running,at Sat Aug 17 13:22:52 2019.
Child Process 1236 is running,at Sat Aug 17 13:22:54 2019.
Child Process 1236 is running,at Sat Aug 17 13:22:56 2019.
分析:
我们用time模块下的sleep()函数让子进程休眠,用ctime()函数获取当前当地时间的字符串,可以看到,子进程不会结束,主进程也不会结束,主进程会默认等待子进程结束后其本身才会结束,这在一定程度上避免了僵尸进程的产生。
什么是僵尸进程呢,当子进程结束运行后会产生一个僵尸进程,它的作用是使进程退出,僵尸进程保存着进程的退出状态等信息,除此之外,僵尸进程不再占有任何内存空间。它需要父进程来回收这些信息,虽然父进程会默认等待子进程结束并回收资源后本身才会结束,但是如果父进程出现了其它异常情况,这就有可能造成僵尸进程继续残留,大量的僵尸进程积累会使内存空间被挤占。
这时有必要使用join()函数,join()函数会使主进程等待子进程,并且join()函数内部也有一个清除僵尸进程的函数可以用来回收资源;另外,如果有多条子进程被创建,那么start()函数也能够回收之前的僵尸进程。
示例3:
from multiprocessing import Process
a = 777
def text():
global a
a = 666
print('Child Process,a = %d.' % (a))
if __name__ == '__main__':
p = Process(target=text)
p.start()
p.join()
print('Main Process,a = %d.' % (a))
Child Process,a = 666.
Main Process,a = 777.
分析:
在text()函数中,我们设置了一个全局变量a,但是可以看到即便如此父进程和子进程的a仍然是不同的,这说明进程之间的内存空间是隔离的,进程与进程之间相互独立。
5 其他多进程的实现方式(以后展开)
5.1 继承Process类创建子进程
5.2 进程池(重点,待编写)
进程池函数Pool()可以用来批量创建子进程,也可以用来管理进程。
进程池实际上是multiprocessing模块下的Pool类。
5.3 os.fork()
只能用于Unix系统!
6 进程间通信
Python 的 multiprocessing 模块包装了底层的机制,提供了 Queue(队列)、Pipes(管道)等多种方式来交换数据。
Queue和Pipes都是multiprocessing模块/包(文件)中的一个类。
6.1 队列实现进程间的通信
队列(Queue)就是模仿现实中的排队,最前面的最先走,后面来的排在最后面,如图所示:
Queue是multiprocessing模块/包(本质上是文件)中的一个类。
队列的初始化:q = Queue(num)若括号中没有指定最大可接收的消息数量,或数量为负值,那么就代表可接收的消息数量没有上限(直到内存的尽头)。
Queue 的常用方法如下所示:(这里先把Queue看作是Queue类的一个对象)
方法 | 说明 |
Queue.qsize() | 返回当前队列包含的消息数量 |
Queue.empty() | 如果队列为空,返回 True,否则返回 False |
Queue.full() | 如果队列满了,返回 True,否则返回 False |
Queue.get([block[, timeout]]) | 获取队列中的一条消息,然后将其从队列中移除,block 默认值为 True。如果 block 使用默认值,且没有设置 timeout(单位:秒),消息队列为空,此时程序将被阻塞(停在读取状态),直到从消息队列读到消息为止,如果设置了 timeout,则会等待 timeout 秒,若还没有读取到任何消息,则抛出 Queue.Empty 异常 |
Queue.get_nowait() | 相当于 Queue.get(False) |
Queue.put(item, [block[, timeout]]) | 将 item 消息写入队列,block 默认值为 True。如果 block 使用默认值,且没有设置 timeout(单位:秒),消息队列如果已经没有空间可写入,此时程序将被阻塞(停在写入状态),直到从消息队列腾出空间为止,如果设置了 timeout,则会等待 timeout 秒,若还没有空间,则抛出 Queue.full 异常 |
Queue.put_nowait(item) | 相当于 Queue.put(item, False) |
示例:
from multiprocessing import Queue
if __name__ == '__main__':
q = Queue(3) # 初始化一个 Queue 对象,最多可接收 3 条 put 消息
q.put("消息1")
q.put("消息2")
print(q.full())
q.put("消息3")
print(q.full())
# 因为消息队列已满,再 put 会报异常,第一个 try 等待 2 秒后再抛出异常,第二个 try 立刻抛出
try:
q.put("消息4", True, 2)
except:
print("消息队列已满,现有消息数量: %s" % q.qsize())
try:
q.put_nowait("消息4")
except:
print("消息队列已满,现有消息数量: %s" % q.qsize())
# 读取消息时,先判断消息队列是否为空,再读取
if not q.empty():
print("----从消息队列中获取消息--")
for i in range(q.qsize()):
print(q.get_nowait())
下面通过一个实例结合 Process 和 Queue 实现进程间通信。创建两个子进程,一个子进程负责向队列中写入数据,另一个子进程负责从队列中读取数据。
from multiprocessing import Process, Queue
import time
# 向对列中写入数据
def write_task(q):
if not q.full():
for i in range(5):
message = "消息" + str(i)
q.put(message)
print("写入: %s" % message)
# 从队列读取数据
def read_task(q):
time.sleep(1)// 目的是等待write进程结束
while not q.empty():
print("读取: %s" % q.get(True, 2)) # 等待 2 秒,如果还没有读取到任何消息,则抛出异常
if __name__ == '__main__':
print("---父进程开始---")
q = Queue() # 父进程创建 Queue,并传递给子进程
pw = Process(target=write_task, args=(q,))
pr = Process(target=read_task, args=(q,))
pw.start()
pr.start()
print("---等待子进程结束---")
pw.join()
pr.join()
print("---父进程结束---")
结果:
---父进程开始---
---等待子进程结束---
写入: 消息0
写入: 消息1
写入: 消息2
写入: 消息3
写入: 消息4
读取: 消息0
读取: 消息1
读取: 消息2
读取: 消息3
读取: 消息4
---父进程结束---
6.2 管道实现进程间通信
multiprocessing.Pipe()即管道模式,调用Pipe()返回管道的两端的Connection对象。
当主进程创建Pipe的时候,Pipe的两个Connections连接的的都是主进程。
当主进程创建子进程后,Connections也被拷贝了一份。此时有了4个Connections。
此后,关闭主进程的一个Out Connection,关闭一个子进程的一个In Connection。那么就建立好了一个输入在主进程,输出在子进程的管道。
# 示例代码
# coding=utf-8
from multiprocessing import Pipe, Process
def son_process(x, pipe):
_out_pipe, _in_pipe = pipe
# 关闭fork过来的输入端
_in_pipe.close()
while True:
try:
msg = _out_pipe.recv()
print msg
except EOFError:
# 当out_pipe接受不到输出的时候且输入被关闭的时候,会抛出EORFError,可以捕获并且退出子进程
break
if __name__ == '__main__':
out_pipe, in_pipe = Pipe(True)
son_p = Process(target=son_process, args=(100, (out_pipe, in_pipe)))
son_p.start()
# 等pipe被fork 后,关闭主进程的输出端
# 这样,创建的Pipe一端连接着主进程的输入,一端连接着子进程的输出口
out_pipe.close()
for x in range(1000):
in_pipe.send(x)
in_pipe.close()
son_p.join()
print "主进程也结束了"
总结一下:
上面的代码中主要用到了pipe的send()、recv()、close()方法。当pipe的输入端被关闭,且无法接收到输入的值,那么就会抛出EOFError。
新建一个Pipe(duplex)的时候,如果duplex为True,那么创建的管道是双向的;如果duplex为False,那么创建的管道是单向的。