I/O介绍

I/O:

网络IO:本质是socket读取
磁盘IO:

每次IO,都要经由两个阶段:

第一步:将数据从磁盘文件先加载至内核内存空间(缓冲区),等待数据准
备完成,时间较长
第二步:将数据从内核缓冲区复制到用户空间的进程的内存中,时间较短

I/O模型

Linux下的五种I/O模型
1)阻塞I/O(blocking I/O)
2)非阻塞I/O (nonblocking I/O)
3) I/O复用(select 和poll) (I/O multiplexing)
4)信号驱动I/O (signal driven I/O (SIGIO))
5)异步I/O (asynchronous I/O (the POSIX aio_functions))

前四种都是同步,只有最后一种才是异步IO。

同步、异步:

概念:消息的通知机制
解释:涉及到IO通知机制;所谓同步,就是发起调用后,被调用者处理消息,必须等处理完才直接返回结果,没处理完之前是不返回的,调用者主动等待结果;所谓异步,就是发起调用后,被调用者直接返回,但是并没有返回结果,等处理完消息后,通过状态、通知或者回调函数来通知调用者,调用者被动接收结果。

阻塞、非阻塞:

概念:程序等待调用结果时的状态
解释:涉及到CPU线程调度;所谓阻塞,就是调用结果返回之前,该执行线程会被挂起,不释放CPU执行权,线程不能做其它事情,只能等待,只有等到调用结果返回了,才能接着往下执行;所谓非阻塞,就是在没有获取调用结果时,不是一直等待,线程可以往下执行,如果是同步的,通过轮询的方式检查有没有调用结果返回,如果是异步的,会通知回调。

经典故事案例:

人物:老张
道具:普通水壶(水烧开不响);响水壶(水烧开发出响声)
案例:

                       1、同步阻塞:                              老张在厨房用普通水壶烧水,一直在厨房等着(阻塞),盯到水烧开(同步);                        2、异步阻塞:                              老张在厨房用响水壶烧水,一直在厨房中等着(阻塞),直到水壶发出响声(异步),老张知道水烧开了;                        3、同步非阻塞:                              老张在厨房用普通水壶烧水,在烧水过程中,就到客厅去看电视(非阻塞),然后时不时去厨房看看水烧开了没                                                           (轮询检查同步结果);                        4、异步非阻塞:                              老张在厨房用响水壶烧水,在烧水过程中,就到客厅去看电视(非阻塞),当水壶发出响声(异步),老张就知道                                                        水烧开了。

阻塞I/O模型:

简介:进程会一直阻塞,直到数据拷贝完成

应用程序调用一个I/O函数,导致应用程序阻塞,等待数据准备好,如果数据没有准备好,一直等待。。数据准备好,从内核拷贝到用户空间,I/O函数返回成功。

阻塞I/O模型图:在调用recv()/recvfrom()函数,发生在内核中等待数据和复制数据过程。

**当调用recv()函数时,系统首先检查是否有准备好的数据,如果数据没有准备好,那么系统就处于等待状态,当数据准备好后,将数据从系统缓冲区复制到用户空间,然后函数返回。在套接应用程序中,当调用recv()函数时,未必用户空间就已经存在数据,那么此时recv()函数处于等待状态 **

非阻塞I/O模型:

简介:我们把一个套接口设置为非阻塞就是告诉内存,当所请求的I/O操作无法完成时,不要惊进程睡眠,而是返回一个错误,河阳I/O函数会不断的测试数据是否准备好,没有准备好,继续测试,直到数据准备好为止。在测试的过程中会占用大量的CPU时间。

I/O复用模型:

inux提供select/poll,进程通过将一个或多个fd传递给select或poll系统调用,阻塞在select操作上,这样,select/poll可以帮我们侦测多个fd是否处于就绪状态。

select/poll是顺序扫描fd是否就绪,而且支持的fd数量有限,因此它的使用受到了一些制约。
Linux还提供一个epoll系统调用,epoll使用基于事件驱动方式代替顺序扫描,因此性能更高。当有fd就绪时,立即回调函数rollback。

信号驱动I/O

简介:两次调用,两次返回 
首先允许套接口进行信号驱动I/O,并安装一个信号处理函数,进程继续运行并不阻塞。昂数据准备好时,进程会收到一个SIGIO信号,可以在信号处理函数中调用I/O操作函数处理数据。

异步I/O模型:

简介:数据拷贝的时候进程无需阻塞 
当一个异步过程调用发出后,调用者不能立刻得到结果。实际处理这个调用的部件在完成后,通过状态,通知和回调通知调用者输入输出操作。

I/O多路复用技术

**I/O编程中,需要处理多个客户端接入请求时,可以利用多线程或者I/O多路复用技术进行处理。 **   正如前面的简介,I/O多路复用技术通过把多个I/O的阻塞复用到同一个select的阻塞上,从而使得系统在单线程的情况下可以同时处理多个客户端请求。

    与传统的多线程模型相比,I/O多路复用的最大优势就是系统开销小,系统不需要创建新的额外线程,也不需要维护这些线程的运行,降低了系统的维护工作量,节省了系统资源。

    主要的应用场景:

    服务器需要同时处理多个处于监听状态或多个连接状态的套接字。     服务器需要同时处理多种网络协议的套接字。     支持I/O多路复用的系统调用主要有select、pselect、poll、epoll。

    而当前推荐使用的是epoll,优势如下:

    支持一个进程打开的socket fd不受限制。     I/O效率不会随着fd数目的增加而线性下将。     使用mmap加速内核与用户空间的消息传递。     epoll拥有更加简单的API。

select/poll/epoll

Select:POSIX所规定,目前几乎在所有的平台上支持,其良好跨平台支持也是它的一个优点,本质上是通过设置或者检查存放fd标志位的数据结构来进行下一步处理
缺点
1 单个进程能够监视的文件描述符的数量存在最大限制,在Linux上一般为1024,可以通过修改宏定义FD_SETSIZE,再重新编译内核实现,但是这样也会造成效率的降低
2 单个进程可监视的fd数量被限制,默认是1024,修改此值需要重新编译内核
3 对socket是线性扫描,即采用轮询的方法,效率较低
4 select 采取了内存拷贝方法来实现内核将 FD 消息通知给用户空间,这样一个用来存放大量fd的数据结构,这样会使得用户空间和内核空间在传递该结构时复制开销大

poll

1 本质上和select没有区别,它将用户传入的数组拷贝到内核空间,然后查询每个fd对应的设备状态
2 其没有最大连接数的限制,原因是它是基于链表来存储的
3 大量的fd的数组被整体复制于用户态和内核地址空间之间,而不管这样的复制是不是有意义
4 poll特点是“水平触发”,如果报告了fd后,没有被处理,那么下次poll时会再次报告该fd
5 边缘触发:只通知一次

epoll:

在Linux 2.6内核中提出的select和poll的增强版本

1 支持水平触发LT和边缘触发ET,最大的特点在于边缘触发,它只告诉进程哪
些fd刚刚变为就需态,并且只会通知一次
2 使用“事件”的就绪通知方式,通过epoll_ctl注册fd,一旦该fd就绪,内核
就会采用类似callback的回调机制来激活该fd,epoll_wait便可以收到通知
优点:
1 没有最大并发连接的限制:能打开的FD的上限远大于1024(1G的内存能监听
约10万个端口),具体查看/proc/sys/fs/file-max,此值和系统内存大小相关
2 效率提升:非轮询的方式,不会随着FD数目的增加而效率下降;只有活跃可
用的FD才会调用callback函数,即epoll最大的优点就在于它只管理“活跃”
的连接,而跟连接总数无关
3 内存拷贝,利用mmap(Memory Mapping)加速与内核空间的消息传递;即
epoll使用mmap减少复制开销