- 进程
- 概念:进程是操作系统分配资源的最小单元
- 理解:一个应用程序至少包括1个进程,每个进程在执行过程中拥有独立的内存单元,python的多进程编程主要依靠multiprocess模块。
- 进程间通信:首先,进程间是可以相互通信的,比较常见的有七种通信方式,如管道pipe、命名管道FIFO、消息队列MessageQueue、共享内存SharedMemory、信号量Semaphore、套接字Socket、信号 signal(由于实际开发涉及较少,这里只作简单介绍)但是通常进程之间是相互独立的,每个进程都有独立的内存。通过共享内存(nmap模块),进程之间可以共享对象,使多个进程可以访问同一个变量(地址相同,变量名可能不同)。多进程共享资源必然会导致进程间相互竞争,所以应该尽最大可能防止使用共享状态。
- 线程
- 概念:线程是操作系统调度的最小单元
- 理解:1个进程包括1个或多个线程,相比较之下,线程占用资源更少,更高效,且一个进程的多个线程在执行过程中共享内存,毫无疑问,线程之间可以相互通信。而python的多进程编程主要依靠threading模块
- 线程间通信:主要有两种方式,一种是上锁,上互斥锁确保任意时刻只有一个线程具备修改全局变量的能力。另一种则是使用消息队列,比较经典的生产者、消费者模型就是这样,一个负责生成,一个负责消费,所生成的产品存放在queue里,实现了不同线程间沟通。
- 多进程跟多线程的区别
- 由于进程的创建跟销毁都涉及到系统资源的分配以及回收,导致多进程的开销明显大于多线程的开销。
- 两者的应用场景
- 对CPU密集型代码(比如循环计算) - 多进程效率更高
- 对IO密集型代码(比如文件操作,网络爬虫) - 多线程效率更高
- 理由:对于IO密集型操作,大部分消耗时间其实是等待时间,在等待时间中CPU是不需要工作的,那你在此期间提供双CPU资源也是利用不上的,相反对于CPU密集型代码,2个CPU干活肯定比一个CPU快很多。那么为什么多线程会对IO密集型代码有用呢?这时因为python碰到等待会释放GIL供新的线程使用,实现了线程间的切换。