核跟线程的关系
在理解spdk,特别是spdk线程模型前,需要清楚cpu核跟线程的关系。
首先,关于计算机系统的很多概念,都有“逻辑层” 和 “物理层”的区分,这个是前提。
然后再看,“核心”这个概念是“物理层”的概念,指的就是 CPU硬件的物理核心数量。
而“线程” 这个概念,是“逻辑层”的概念,而且这个“逻辑层”的概念,还要区分是 “CPU逻辑层” 还是 “操作系统OS逻辑层”。
先说 “CPU逻辑层” 的 线程。Intel 在CPU上搞出了HT技术(Hyper Threading),也叫超线程技术。这个技术简单来说,就Intel 把一个CPU核心上,搞出了两个处理的流水线,在使用的时候可以当成两个来用。而他们把这每一个核心分出来的两个流水线,叫做“线程”。这也就是 4核心8线程的意思。从上层逻辑上来看,完全可以把它当作是个8核心的CPU。
再说 “操作系统OS逻辑层”的线程。操作系统把把处理单元称为“进程”,然后在每一个进程里面开辟了粒度更细的“线程”,这个“线程”是运行在某个进程中的处理调度单元,是由操作系统提供的虚拟的概念。因为是虚拟出来的,所以操作系统层面来说,“线程”可以创建很多个,而不局限于CPU层面的那个“8个线程”。
下文中提到的"核"指“物理层的cpu核“;”线程“指”cpu逻辑层的线程“,而非os层的线程。
spdk概述
存储性能开发工具包(即SPDK)提供了一组工具库和线程模型,用于编写高性能、可伸缩的用户态存储应层程序。通过以下技术实现高性能:
- 用户态。将必需的驱动程序从内核态移到用户态,避免系统调用,同时实现用户态的零拷贝访问。
- 异步轮询。采用异步轮询,而非依赖中断,减少上下文切换的开销。
- 免锁。避免IO路径中用加锁的方式来进行线程间的通信,而是依赖于消息传递。
- run_to_complete。旨在一个线程上做完所有事情。
spdk组件
spdk的主要构件如下图:
- 驱动(Drivers)
NVMe Driver:SPDK的基础组件,这个高优化无锁的驱动有着高扩展性、高效性和高性能的特点。
Intel QuickData Technology:也称为Intel I/O Acceleration Technology(Inter IOAT,英特尔I/O加速技术),这是一种基于Xeon处理器平台上的copy offload引擎。通过提供用户空间访问,减少了DMA数据移动的阈值,允许对小尺寸I/O或NTB的更好利用。
NVMe over Fabrics(NVMe-oF)initiator:从程序员的角度来看,本地SPDK NVMe驱动和NVMe-oF启动器共享一套共同的API命令。这意味着,例如本地/远程复制将十分容易实现。 - Storage Services(存储设备)
Block device abstration layer(bdev):这种通用的块设备抽象是连接到各种不同设备驱动和块设备的存储协议的粘合剂。并且还在块层中提供灵活的API,用于额外的用户功能,如磁盘阵列、压缩、去冗等等。
Blobstore:为SPDK实现一个高精简的文件式语义(非POSIX)。这可以为数据库、容器、虚拟机或其他不依赖于大部分POSIX文件系统功能集(比如用户访问控制)的工作负载提供高性能基础。
Blobstore Block Device:由SPDK Blobstore分配的块设备,是虚拟机或数据库可以与之交互的虚拟设备。这些设备得到SPDK基础架构的优势,意味着零拷贝和令人难以置信的可扩展性。
Logical Volume:类似于内核软件栈中的逻辑卷管理,SPDK通过Blobstore的支持,同样带来了用户态逻辑卷的支持,包括更高级的按需分配、快照、克隆等功能。
Ceph RADOS Block Device(RBD):使Ceph成为SPDK的后端设备,比如这可能允许Ceph用作另一个存储层。???
Linux Asynchrounous I/O(AIO):允许SPDK与内核设备(比如机械硬盘)交互。 - 存储协议(Storage Protocols)
iSCSI target:建立了通过以太网的块流量规范,大约是内核LIO效率的两倍。现在的版本默认使用内核TCP/IP协议栈,后期会加入对用户态TCP/IP协议栈的集成。
NVMe-oF target:实现了NVMe-oF规范。将本地的高速设备通过网络暴露出来,结合SPDK通用块层和高效用户态驱动,实现跨网络环境下的丰富特性和高性能。支持的网络不限于RDMA一种,FC,TCP等作为Fabrics的不同实现,会陆续得到支持。
vhost target:KVM/QEMU的功能利用了SPDK NVMe驱动,使得访客虚拟机访问存储设备时延迟更低,使得I/O密集型工作负载的整体CPU负载减低,支持不同的设备类型供虚拟机访问,比如SCSI, Block, NVMe块设备。
spdk线程
在SPDK内部,reactor对应了绑定在某个CPU核上的一个线程,每个reactor上会创建多个thread,类似于协程,会不断的被调度。
thread跟io_device通过channel连接。一个thread可有多个channel,一个channel对应一个device,一个channel只能从属于一个thread。
下图中的“spdk线程”就是上图中的“thread”。Reactor1下的所有spdk线程都跑在物理线程1上。
为了在spdk线程上执行相应代码,spdk提供了2种机制:msg和poller。msg是一个函数指针和一个上下文指针,可以通过spdk_thread_send_msg发送给指定线程以执行函数。poller有分为定时和非定时,通过spdk_poller_register注册poller给指定线程。
其中Reactor有个轮训函数,就是一个while(1) {},先处理msg,在轮询处理非定时poller,最后轮询处理定时poller。
线程模型实现细节
- Reactor包含:
threads,表示该Reactor上的spdk_thread;
events,这是一个spdk ring,用于事件传递接受; - spdk_thread包含:
channel:用于连接spdk_thread和dev;
active_pollers: 非定时poller;
timer_pollers:定时poller;
messages:这是一个spdk_ring,用于消息传递接受。
Reactor的处理逻辑是这样的:
spdk_app_start
–> spdk_reactor_init
–> spdk_reactor_start
–> spdk_reactor_run
–> spdk_reactor_destroy
其中spdk_reactor_run就是一个while轮询函数。reactor的模型就是:while轮询处理event,处理各个spdk_thread的poller。
static int _spdk_reactor_run(void *arg) {
while (1) {
// 处理reactor上的event消息,消息会在之后讲到
_spdk_event_queue_run_batch(reactor);
// 每一个reactor上注册的thread进行遍历并且处理poller事件
TAILQ_FOREACH_SAFE(lw_thread, &reactor->threads, link, tmp) {
rc = spdk_thread_poll(thread, 0, now)
}
// 检查reactor的状态
if (g_reactor_state != SPDK_REACTOR_STATE_RUNNING) {
break;
}
}
参考文章:
https://www.codenong.com/cs106732499/ https://zhuanlan.zhihu.com/p/551255049 https://www.modb.pro/db/164720