一、CPU上下文切换测试场景

使用sysbench模拟多线程调度: sysbench --threads=10 --time=300 threads run 使用vmstat查看CPU上下文切换: cs列上下文切换次数超过150万次。 r列就绪队列长度最大达到8,超过系统CPU的个数4,存在大量的CPU竞争。 sy列超过70%,说明CPU主要是被内核占用。 in列中断次数上升到40000以上,说明中断处理也是个潜在的问题。 系统就绪队列过长,即正在运行和等待CPU的进程数过多,导致大量的上下文切换,而上下文切换又导致了系统 CPU 的占用率升高。 使用pidstat -wt 3查看具体线程: sysbench线程的cswch超过40000,nvcswch超过100000。

观察CPU的中断使用情况: watch -d cat /proc/interrupts 重调度中断(RES)超过400万次,用于唤醒空闲状态的CPU来调度新的任务运行。多处理器系统(SMP)中,处理器间中断(Inter-Processor Interrupts,IPI)用来分散任务到不同CPU的机制。

二、CPU平均负载测试场景

1、CPU密集型进程

第一个终端运行stress命令,模拟一个CPU使用率100%的场景。 stress --cpu 1 --timeout 600 在第二个终端运行uptime查看平均负载的变化情况。 watch -d uptime 在第三个终端运行mpstat查看CPU使用率的变化情况。 mpstat -P ALL 5 监控所有CPU,每隔5秒输出一次。 第二个终端uptime监控的1分钟的平均负载会缓慢增加到1.21。 第三个终端中CPU3的使用率为96%,但相应iowait只有0,平均负载的升高是由于CPU使用率为100%。 第四个终端运行pidstat查看进程的CPU使用率,发现stress进程的CPU使用率为100%。 pidstat -u 5 1

2、IO密集型进程

第一个终端运行stress命令,模拟一个IO密集型进程。 stress -i 1 --hdd 1 --timeout 600 第二个终端运行uptime查看平均负载的变化情况。 watch -d uptime 第三个终端运行mpstat查看CPU使用率的变化情况。 mpstat -P ALL 5 第四个终端运行pidstat查看进程的CPU使用率,发现stress进程的CPU使用率相对比较高。 pidstat -u 5 1

3、等待CPU进程

当系统中运行进程超出CPU运行能力时,就会出现等待CPU的进程。 第一个终端运行stress命令,模拟10个进程的场景。 stress -c 10 --timeout 600 由于系统只有4个逻辑CPU,比10个进程要少得多,因而,系统的CPU处于严重过载状态,平均负载高达9.96。 mpstat查看CPU使用率都接近100%。 10个进程争抢4个逻辑CPU,每个进程等待CPU时间(%wait 列)高达60%,严重超出CPU计算能力,最终导致CPU过载。

三、CPU使用率测试场景

1、开启多线程压力测试

sysbench --threads=8 --time=600 cpu run 使用sysbench开启8线程压力测试,持续时间600秒

2、实时分析

sudo perf top -g -p 30388 实时分析sysbench进程30388的性能 选择sysbench,按ENTER键。 选择CPU使用率最大的cpu_execute_eventh函数,按ENTER键进入查看。 选择Annotate cpu_execute_event按ENTER键进入,查看函数内部调用所占CPU。 从cpu_excute_event函数调用看,取模运算占用CPU使用率高达70%以上。

3、离线分析

perf record -g -p 28068 采样sysbench进程性能数据 perf report 解析性能数据