如何查看容器的cpu使用率怎么看cpu使用率

转载

AI大梦想家 2024-04-12 11:14:39

文章标签 如何查看容器的cpu使用率 linux 性能分析用户态内核态 文章分类 云原生云计算

一、CPU使用率及计算方法

一提到CPU指标，大家最可能熟悉的莫过于CPU使用率，表示的是单位时间内 CPU 使用情况的统计，以百分比的方式展示。查看CPU使用率一手top，天下我有，再就可能会使用到ps。但是对于top、ps 之类的性能工具展示的 %user、%nice、 %system、%iowait 、%steal 等之间计算方式及不同之处了解甚微。接下来就是我们展现“杆法”的时候了。

我们都知道，Linux是一个多任务的操作系统，将每个CPU的占用通过很短的时间片来调度给每个任务使用，由于时间极短，造成了多任务并行的错觉。

linux为维护CPU的时间，通过事先定义节拍率（内核中使用HZ表示）触发时间中断，并使用全局变量 Jiffies 记录了开机以来的节拍数。每发生一次时间中断，Jiffies 的值就加 1。但是由于节拍率 HZ 是内核选项，用户空间程序并不能直接访问。所以内核还提供了一个用户空间节拍率 USER_HZ，它总是固定为 100，也就是 1/100 秒。这样，用户空间程序将总会看到固定的USER_HZ，不需要关注内核空间的节拍率HZ。

节拍率 HZ 是内核的可配选项，可以设置为 100、250、1000 等。不同的系统可能设置不同数值，通过查询 /boot/config 内核选项来查看它的配置值
[root@localhost boot]# grep 'CONFIG_HZ=' /boot/config-$(uname -r)
CONFIG_HZ=1000
[root@localhost boot]#

linux通过/proc/stat 提供系统的 CPU 和任务统计信息。如下：

[root@localhost boot]# cat /proc/stat
cpu  7317 256 9436 4850047 920 0 537 0 0 0
cpu0 4328 121 5562 2423171 851 0 216 0 0 0
cpu1 2988 135 3873 2426875 68 0 321 0 0 0
...

其中，第一列表示的是 CPU 编号，如 cpu0、cpu1 ，而第一行cpu表示的是所有 CPU 的累加。cpu0,cpu1则表示不同场景下 CPU 的累加节拍数,也就是不同场景下CPU的累计时间，它的单位是 USER_HZ，也就是 10 ms（1/100 秒）。

通过man proc可以看到很多CPU使用率的相关指标，

提示：
man proc 执行时如果提示：No manual entry for proc。
需要安装man-pages 即可
yum install -y man-pages

user（通常缩写为 us），代表用户态 CPU 时间。注意，它不包括下面的 nice 时间，但包括了 guest 时间。
nice（通常缩写为 ni），代表低优先级用户态 CPU 时间，也就是进程的 nice 值被调整为 1-19 之间时的 CPU 时间。这里注意，nice 可取值范围是 -20 到 19，数值越大，优先级反而越低。
system（通常缩写为 sys），代表内核态 CPU 时间。
idle（通常缩写为 id），代表空闲时间。注意，它不包括等待 I/O 的时间（iowait）。
iowait（通常缩写为 wa），代表等待 I/O 的 CPU 时间。
irq（通常缩写为 hi），代表处理硬中断的 CPU 时间。
softirq（通常缩写为 si），代表处理软中断的 CPU 时间。
steal（通常缩写为 st），代表当系统运行在虚拟机中的时候，被其他虚拟机占用的 CPU 时间。
guest（通常缩写为 guest），代表通过虚拟化运行其他操作系统的时间，也就是运行虚拟机的 CPU 时间。
guest_nice（通常缩写为 gnice），代表以低优先级运行虚拟机的时间。

系统 CPU 使用率的计算方法：

计算CPU使用率时，直接用 /proc/stat 中的数据，但这是开机以来的节拍数累加值，所以直接算出来的是开机以来的平均 CPU 使用率，一般没啥参考价值。事实上为了计算 CPU 使用率，性能工具一般都会取间隔一段时间（比如 3 秒）的两次值，作差后，再计算出这段时间内的平均 CPU 使用率。如下公式，就是我们用各种性能工具所看到的 CPU 使用率的实际计算方法，即：

如何查看容器的cpu使用率怎么看cpu使用率_用户态

进程CPU使用率计算方法：

跟系统的指标类似，Linux 也给每个进程提供了运行情况的统计信息，也就是 /proc/[pid]/stat。总共有 52 列的数据，无掌握每一列的含义，需要的时候，查 man proc。

值得注意的是：性能分析工具给出的都是间隔一段时间的平均 CPU 使用率，所以要注意间隔时间的设置，比如 top 默认使用 3 秒时间间隔，而 ps 使用的却是进程的整个生命周期。所以用多个工具对比分析时，一定要保证它们用的是相同的间隔时间。

二、怎么查看 CPU 使用率

top 和 ps 是最常用的性能分析工具：

top 显示了系统总体的 CPU 和内存使用情况，以及各个进程的资源使用情况。
ps 则只显示了每个进程的资源使用情况。

如下top命令的部分输出：第三行 %Cpu 就是系统的 CPU 使用率，默认显示的是所有 CPU 的平均值，这个时候你只需要按下数字 1 ，就可以切换到每个 CPU 的使用率。空白行之后是进程的实时信息，每个进程都有一个 %CPU 列，表示进程的 CPU 使用率。它是用户态和内核态 CPU 使用率的总和，包括进程用户空间使用的 CPU、通过系统调用执行的内核空间 CPU 、以及在就绪队列等待运行的 CPU。在虚拟化环境中，它还包括了运行虚拟机占用的 CPU。

top - 21:35:18 up  7:13,  3 users,  load average: 0.00, 0.01, 0.05
Tasks: 110 total,   1 running, 109 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  3861292 total,  3111040 free,   319040 used,   431212 buff/cache
KiB Swap:  2097148 total,  2097148 free,        0 used.  3304904 avail Mem 

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                                                                                              
   696 root      20   0  273164   4864   3736 S   0.3  0.1   1:01.30 vmtoolsd                                                                                                             
 18243 root      20   0       0      0      0 S   0.3  0.0   0:01.04 kworker/u256:0                                                                                                       
 18371 root      20   0       0      0      0 S   0.3  0.0   0:00.62 kworker/0:2                                                                                                          
     1 root      20   0  128148   6784   4184 S   0.0  0.2   0:05.01 systemd                                                                                                              
     2 root      20   0       0      0      0 S   0.0  0.0   0:00.03 kthreadd

top 并没有细分进程的用户态 CPU 和内核态 CPU。那要怎么查看每个进程的详细情况呢？

pidstat ：是一个专门分析每个进程 CPU 使用情况的工具。

间隔 1 秒展示了进程的 5 组 CPU 使用率，包括：

用户态 CPU 使用率（%usr）；
内核态 CPU 使用率（%system）；
运行虚拟机 CPU 使用率（%guest）；
等待 CPU 使用率（%wait）；（注意：旧版本的sysstat 中的pidstat 命令输出没有%wait 指标，只有在systat 11.5.5 版本以后才引进的这个指标。）
总的 CPU 使用率（%CPU）。

最后的 Average 部分，还计算了 5 组数据的平均值。

[root@localhost 1]# pidstat 1 5
Linux 3.10.0-1160.el7.x86_64 (localhost.localdomain) 	2021年04月12日 	_x86_64_	(2 CPU)

21时41分12秒   UID       PID    %usr %system  %guest    %CPU   CPU  Command
21时41分13秒     0     30924    0.00    0.98    0.00    0.98     1  pidstat

21时41分13秒   UID       PID    %usr %system  %guest    %CPU   CPU  Command
21时41分14秒     0       696    0.99    0.00    0.00    0.99     0  vmtoolsd
21时41分14秒     0     30924    0.00    0.99    0.00    0.99     1  pidstat

21时41分14秒   UID       PID    %usr %system  %guest    %CPU   CPU  Command
21时41分15秒     0     30924    1.00    0.00    0.00    1.00     1  pidstat

21时41分15秒   UID       PID    %usr %system  %guest    %CPU   CPU  Command
21时41分16秒     0       696    0.00    0.98    0.00    0.98     0  vmtoolsd
21时41分16秒     0     18371    0.00    0.98    0.00    0.98     0  kworker/0:2
21时41分16秒     0     30924    0.00    0.98    0.00    0.98     1  pidstat

21时41分16秒   UID       PID    %usr %system  %guest    %CPU   CPU  Command

平均时间:   UID       PID    %usr %system  %guest    %CPU   CPU  Command
平均时间:     0       696    0.20    0.20    0.00    0.40     -  vmtoolsd
平均时间:     0     18371    0.00    0.20    0.00    0.20     -  kworker/0:2
平均时间:     0     30924    0.20    0.59    0.00    0.79     -  pidstat
[root@localhost 1]#

占用 CPU 的到底是代码里的哪个函数呢？

1、 GDB（The GNU Project Debugger），这个功能强大的程序调试利器。但是GDB 调试程序的过程会中断程序运行，这在线上环境往往是不允许的。所以，GDB 只适合用在性能分析的后期，当你找到了出问题的大致函数后，线下再借助它来进一步调试函数内部的问题。

2、perf 是 Linux 2.6.31 以后内置的性能分析工具。它以性能事件采样为基础，不仅可以分析系统的各种事件和内核性能，还可以用来分析指定应用程序的性能问题。使用方法man perf即可。

（1）第一种用法：perf top，类似于 top，它能够实时显示占用 CPU 时钟最多的函数或者指令，因此可以用来查找热点函数（安装：yum install perf）

[root@localhost ~]# perf top
Samples: 833  of event 'cpu-clock', Event count (approx.): 97742399
Overhead  Shared Object       Symbol
   7.28%  perf                [.] 0x00000000001f78a4
   4.72%  [kernel]            [k] vsnprintf
   4.32%  [kernel]            [k] module_get_kallsym
   3.65%  [kernel]            [k] _raw_spin_unlock_irqrestore
...

输出结果中，第一行包含三个数据，分别是采样数（Samples）、事件类型（event）和事件总数量（Event count）。比如这个例子中，perf 总共采集了 833 个 CPU 时钟事件，而总事件数则为 97742399。如果采样数过少（比如只有十几个），那下面的排序和百分比就没什么实际参考价值了。

在下边是一个表格式样的数据，每一行包含四列，分别是：

第一列 Overhead ，是该符号的性能事件在所有采样中的比例，用百分比来表示。
第二列 Shared ，是该函数或指令所在的动态共享对象（Dynamic Shared Object），如内核、进程名、动态链接库名、内核模块名等。
第三列 Object ，是动态共享对象的类型。比如 [.] 表示用户空间的可执行程序、或者动态链接库，而 [k] 则表示内核空间。
最后一列 Symbol 是符号名，也就是函数名。当函数名未知时，用十六进制的地址来表示。

可以看到，占用 CPU 时钟最多的是 perf 工具自身比例也只有 7.28%，说明系统并没有 CPU 性能问题。

（2）第二种用法：perf record 和 perf report。

perf top 虽然实时展示了系统的性能信息，但无法用于离线或者后续的分析。而 perf record 则提供了保存数据的功能，使用 perf report 解析展示。

[root@localhost /]# perf record #使用Ctrl+C终止
^C[ perf record: Woken up 1 times to write data ]
[ perf record: Captured and wrote 0.458 MB perf.data (6659 samples) ]

[root@localhost /]# ll perf.data 
-rw-------. 1 root root 484660 4月  12 22:08 perf.data
[root@localhost /]# perf report   # 展示类似于perf top的报告

Samples: 6K of event 'cpu-clock', Event count (approx.): 1664750000                                                                                                                        
Overhead  Command         Shared Object        Symbol                                                                                                                                      
  98.36%  swapper         [kernel.kallsyms]    [k] native_safe_halt
   0.62%  swapper         [kernel.kallsyms]    [k] _raw_spin_unlock_irqrestore
   0.18%  swapper         [kernel.kallsyms]    [k] tick_nohz_idle_enter
   0.12%  kworker/0:1     [kernel.kallsyms]    [k] _raw_spin_unlock_irqrestore
   0.12%  swapper         [kernel.kallsyms]    [k] __do_softirq

在实际使用中，经常为 perf top 和 perf record 加上 -g 参数，开启调用关系的采样，方便根据调用链来分析性能问题。

三、总结：

CPU 使用率是最直观和最常用的系统性能指标，也是性能问题排查关注的第一个指标。要弄清楚用户（%user）、Nice（%nice）、系统（%system）、等待 I/O（%iowait）、中断（%irq）以及软中断（%softirq）这几种不同 CPU 的使用率。比如说：

用户 CPU 和 Nice CPU 高，说明用户态进程占用了较多的 CPU，所以应该着重排查进程的性能问题。
系统 CPU 高，说明内核态占用了较多的 CPU，所以应该着重排查内核线程或者系统调用的性能问题。
I/O 等待 CPU 高，说明等待 I/O 的时间比较长，所以应该着重排查系统存储是不是出现了 I/O 问题。
软中断和硬中断高，说明软中断或硬中断的处理程序占用了较多的 CPU，所以应该着重排查内核中的中断服务程序。

（1）碰到 CPU 使用率升高的问题，借助 top、pidstat 等工具，确认引发 CPU 性能问题的来源；再使用 perf 等工具，排查出引起性能问题的具体函数。

（2）碰到常规问题无法解释的 CPU 使用率情况时，首先要想到有可能是短时应用导致的问题，比如有可能是下面这两种情况。

第一，应用里直接调用了其他二进制程序，这些程序通常运行时间比较短，通过 top 等工具也不容易发现。
第二，应用本身在不停地崩溃重启，而启动过程的资源初始化，很可能会占用相当多的 CPU。

对于这类进程，我们可以用 pstree 或者 execsnoop 找到它们的父进程，再从父进程所在的应用入手，排查问题的根源。

execsnoop 就是一个专为短时进程设计的工具。它通过 ftrace 实时监控进程的 exec() 行为，并输出短时进程的基本信息，包括进程 PID、父进程 PID、命令行参数以及执行的结果。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：mysql substring负数 mysql decimal 负数

下一篇：NSURLSessionDataTask 设置参数 nsurlsession原理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯