硬件性能监控指标

一、性能监控初步介绍

性能测试的主要目标

1.在当前的服务器配置情况,最大的用户数

2.平均响应时间ART,找出时间较长的业务

3.每秒事务数TPS,服务器的处理能力

性能测试涉及的内容

1.客户端性能测试:web前端性能、app性能

2. 网络性能测试

3. 服务器应用程序性能

4. 服务器硬件性能

5. 数据库的性能

二、linux性能监控--CPU

CPU相关的指标

1. CPU使用率:sys% user%(系统的cpu使用率和用户的cpu使用率)

2. 队列长度

1. 查看CPU使用率

使用vmstat 或top 查看CPU使用情况 us 和sy

标准: cpu使用率: us+sy不能超过75%,偶尔可以100%

vmstat 5:每5秒采集一次

TongLINKQ监控指标 监控数据指标_linux

 vmstat 主要参数说明

  • r 表示运行队列(就是说多少个进程真的分配到CPU),我测试的服务器目前CPU比较空闲,没什么程序在跑,当这个值超过了CPU数目,就会出现CPU瓶颈了。这个也和top的负载有关系,一般负载超过了3就比较高,超过了5就高,超过了10就不正常了,服务器的状态很危险。top的负载类似每秒的运行队列。如果运行队列过大,表示你的CPU很繁忙,一般会造成CPU使用率很高。
  • b 表示阻塞的进程,这个不多说,进程阻塞,大家懂的
  • swpd 虚拟内存已使用的大小,如果大于0,表示你的机器物理内存不足了,如果不是程序内存泄露的原因,那么你该升级内存了或者把耗内存的任务迁移到其他机器。
  • free 空闲的物理内存的大
  • buff Linux/Unix系统是用来存储,目录里面有什么内容,权限等的缓存,我 本机大概占用300多M
  • cache cache直接用来记忆我们打开的文件,给文件做缓冲,我本机大概占用300多M  (这里是Linux/Unix的聪明之处,把空闲的物理内存的一部分拿来做文件和目录的缓存,是为了提高 程序执行的性能,当程序使用内存时,buffer/cached会很快地被使用。)
  • si 每秒从磁盘读入虚拟内存的大小,如果这个值大于0,表示物理内存不够用或者内存泄露了,要查找耗内存进程解决掉。我的机器内存充裕,一切正常。
  • so 每秒虚拟内存写入磁盘的大小,如果这个值大于0,同上。
  • bi 块设备每秒接收的块数量,这里的块设备是指系统上所有的磁盘和其他块设备,默认块大小是1024byte,我本机上没什么IO操作,所以一直是0,但是我曾在处理拷贝大量数据(2-3T)的机器上看过可以达到140000/s,磁盘写入速度差不多140M每秒
  • bo 块设备每秒发送的块数量,例如我们读取文件,bo就要大于0。bi和bo一般都要接近0,不然就是IO过于频繁,需要调整。
  • in 每秒CPU的中断次数,包括时间中断。
  • cs 每秒上下文切换次数,上下文切换次数过多表示你的CPU大部分浪费在上下文切换,导致CPU干正经事的时间少了,CPU没有充分利用,是不可取的。
  • us 用户CPU时间,我曾经在一个做加密解密很频繁的服务器上,可以看到us接近100,r运行队列达到80(机器在做压力测试,性能表现不佳)。
  • sy 系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。
  • id 空闲 CPU时间,一般来说,id + us + sy = 100,一般我认为id是空闲CPU使用率,us是用户CPU使用率,sy是系统CPU使用率。
  • wt 等待IO CPU时间。

2.查看队列长度

使用vmstat -5 执行,查看 r列的数据

标准:队列长度不能超过2,有队列的产生,或者CPU处理不过来

r值<=2

r值在[3,5]

r值在(5,10]

r值在 >10

TongLINKQ监控指标 监控数据指标_TCP_02

3.查看CPU使用较大的进程

ps -aux查看进程的CPU使用情况

目的:找出高CPU的进程

ps auxw|head -1;ps auxw|sort -rn -k3|head -1  (查看CPU使用较大的前10个进程)

TongLINKQ监控指标 监控数据指标_网络_03

三、linux性能监控--内存

核心指标

1. 可用物理内存的比例

2. 是否使用了虚拟内存

3.是否存在内存泄漏

1. 查看物理内存的使用情况

free命令查看使用情况

TongLINKQ监控指标 监控数据指标_TCP_04

标准:linux的可用物理内存可为0,全部用完,只要不使用虚拟内存

2.查看是否使用了虚拟内存

方法1: vmstat 查看si so列

标准: si 和so大于0,表示物理内存不够用或者内存泄露了

TongLINKQ监控指标 监控数据指标_TongLINKQ监控指标_05

方法2: sar –W 10 3  (10和3代表了每个10秒监控一次,总共监控3次)

标准:值大于0,就说明内存已经饱和了

TongLINKQ监控指标 监控数据指标_TongLINKQ监控指标_06

pswpin/s:每秒系统换入的交换页面(swap page)数量

pswpout/s:每秒系统换出的交换页面(swap page)数量

3. 找出高内存使用的进程

3.1内存消耗最多的前10个进程

ps auxw|head -1;ps auxw|sort -rn -k4|head -10

3.2 虚拟内存使用最多的前10个进程

ps auxw|head -1;ps auxw|sort -rn -k5|head

%MEM 进程的内存占用率

VSZ 进程所使用的虚存的大小

RSS 进程使用的驻留集大小或者是实际内存的大小

四、linux性能监控--硬盘IO的监控

核心指标

1.硬盘的使用率

2.物理硬盘驱动器忙于读或写入的时间

工具:iostat、iotop、pt-ioprofile

1. 查看硬盘的使用率: df -lh

TongLINKQ监控指标 监控数据指标_linux_07

 2. 查看具体的那个硬盘的IO较高:

使用iostat 工具来查

ostat主要用于监控系统设备的IO负载情况,iostat首次运行时显示自系统启动开始的各项统计信息,之后运行iostat将显示自上次运行该 命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所 需的统计信息

安装iostat 安装命令: yum install sysstat

TongLINKQ监控指标 监控数据指标_TongLINKQ监控指标_08

语法: iostat [ -c ] [ -d ] [ -h ] [ -N ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -z ] [ device
[...] | ALL ] [ -p [ device [,...] | ALL ] ] [ interval [ count ] ]

-c 显示CPU使用情况
-d 显示磁盘使用情况
-k 以K为单位显示
-m 以M为单位显示
-N 显示磁盘阵列(LVM) 信息
-n 显示NFS使用情况
-p 可以报告出每块磁盘的每个分区的使用情况
-t 显示终端和CPU的信息 -x 显示详细信息

iostat -d -k 2

参数 -d 表示,显示设备(磁盘)使用状态;-k 某些使用 block为单位的列强制使用Kilobytes为单位;2表示,数据显示每隔2秒刷新一次。

TongLINKQ监控指标 监控数据指标_linux_09

iostat -x 5 查看:%util

TongLINKQ监控指标 监控数据指标_TCP_10

%util: 一秒中有百分之多少的时间用于 I/O 操作,或者说一秒中有多少时间 I/O 队列是非空的。即 delta(use)/s/1000 (因为use的单位为毫秒);

如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。

标准:物理硬盘驱动器忙于读或写入的时间 40% 60% 80%

3. 查看哪个进程耗IO比较高

使用iotop 命令: 查询出较大的IO 的进程
iotop是一个用来监视磁盘I/O使用状况的 top 类工具,可监测到哪一个程序使用的磁盘IO的信息
安装:yum install iotop
查看:iotop 按 o 只显示有磁盘 IO 活动的进程

TongLINKQ监控指标 监控数据指标_服务器_11

语法:iotop [OPTIONS]

  • --version #显示版本号
  • -h, --help #显示帮助信息
  • -o, --only #显示进程或者线程实际上正在做的I/O,而不是全部的,可以随时切换按o
  • -b, --batch #运行在非交互式的模式
  • -n NUM, --iter=NUM #在非交互式模式下,设置显示的次数,
  • -d SEC, --delay=SEC #设置显示的间隔秒数,支持非整数值
  • -p PID, --pid=PID #只显示指定PID的信息
  • -u USER, --user=USER #显示指定的用户的进程的信息
  • -P, --processes #只显示进程,一般为显示所有的线程
  • -a, --accumulated #显示从iotop启动后每个线程完成了的IO总数
  • -k, --kilobytes #以千字节显示
  • -t, --time #在每一行前添加一个当前的时间

4. 定位来源文件

pt-ioprofile定位负载来源文件,通过iotop或ps找出负载较高的进程

安装: 下载地址https://www.percona.com/downloads/percona-toolkit/LATEST/

CentOS 7下安装:

yum -y install https://www.percona.com/downloads/perconatoolkit/3.0.1/binary/redhat/7/x86_64/percona-toolkit-3.0.1-1.el7.x86_64.rpm

使用:

命令格式:pt-ioprofile --profile-pid=xxx

     pt-ioprofile --profile-pid=xxx --cell=size

pt-ioprofile --profile-pid=需要监控的PID --cell=size

pt-ioprofile的原理是对某个pid附加一个strace进程进行IO分析。

步骤1:iotop 查询出高io的pid
步骤2:pt-ioprofile --profile-pid=需要监控的PID --cell=size

对于定位问题更有用的是通过IO的吞吐量来进行定位。

使用参数 --cell=sizes,该参数将结果已 B/s 的方式展示出来

pt-ioprofile --profile-pid=需要监控的PID --cell=sizes

五、linux性能监控--网络监控

网络的监测是所有 Linux 子系统里面最复杂的,有太多的 因素在里面,比如:延迟、阻塞、冲突、丢包等,更糟的是与 Linux 主机相连的路由器、交换机、无线信号都会影响到整体 网络并且很难判断是因为 Linux 网络子系统的问题还是别的设 备的问题,增加了监测和判断的复杂度。

核心指标

1. 网络带宽是否够用
2. 丢包率、错误重传
3. 网络延迟/堵塞
4. 网络错误

监控网络操作步骤

1.查每秒接受和发送的数据量,检查当前带宽是否够用

使用nicstat 工具查看网卡的利用率

nicstat可以提供更加全面的网卡信息。

  • 显示TCP流量统计
  • 显示UDP流量统计
  • 报告进出网卡的字节数
  • 报告进出网卡的数据数
  • 报告网卡利用率
  • 报告NIC饱和度和其他信息

nicstat下载

cd /usr/local/src

wget http://nchc.dl.sourceforge.net/project/nicstat/nicstat-1.92.tar.gz

nicstat安装

tar -xzf nicstat-1.92.tar.gz
cd nicstat-1.92
cp Makefile.Linux Makefile
make

nicstat使用

./nicstat.sh

TongLINKQ监控指标 监控数据指标_TongLINKQ监控指标_12

Time列:表示当前采样的响应时间

lo and eth0 : 网卡名称。
rKB/s : 每秒接收到千字节数。
wKB/s : 每秒写的千字节数。
rPk/s : 每秒接收到的数据包数目。
wPk/s : 每秒写的数据包数目。
rAvs : 接收到的数据包平均大小。
wAvs : 传输的数据包平均大小。
%Util : 网卡利用率(百分比)。
Sat : 网卡每秒的错误数.网卡是否接近饱满的一个指标.尝试去诊断网络问题的时候,推荐使用-x选项去查看更多的统计信息。

./nicstat.sh –t 用于查看tcp信息

TongLINKQ监控指标 监控数据指标_TongLINKQ监控指标_13

InKB : 表示每秒接收到的千字节
OutKB : 表示每秒传输的千字节
InSeg : 表示每秒接收到的TCP数据段(TCP Segments)
OutSeg : 表示每秒传输的TCP数据段(TCP Segments)
Reset : 表示TCP连接从ESTABLISHED或CLOSE-WAIT状态直接转变为CLOSED状态的次数
AttF : 表示TCP连接从SYN-SENT或SYN-RCVD状态直接转变为CLOSED状态的次数,再加上TCP连接从SYN-RCVD状态直接转变为LISTEN状态的次数
%ReTX : 表示TCP数据段(TCP Segments)重传的百分比.即传输的TCP数据段包含有一个或多个之前传输的八位字节
InConn : 表示TCP连接从LISTEN状态直接转变为SYN-RCVD状态的次数
OutCon : 表示TCP连接从CLOSED状态直接转变为SYN-SENT状态的次数
Drops : 表示从完成连接(completed connection)的队列和未完成连接(incomplete connection)的队列中丢弃的连接次数

./nicstat.sh -u 用于查看UDP信息

TongLINKQ监控指标 监控数据指标_服务器_14

InDG : 每秒接收到的UDP数据报(UDP Datagrams)
OutDG : 每秒传输的UDP数据报(UDP Datagrams)
InErr : 接收到的因包含错误而不能被处理的数据包
OutErr :因错误而不能成功传输的数据包

./nicstat.sh –x 查看扩展信息

./nicstat.sh -a 等同于执行-t -u -x

2. 丢包率、错误重传

查看丢包方法1:使用ifconfig,查看 dropped是否有计数,有计数的话存在丢包的情况

TongLINKQ监控指标 监控数据指标_linux_15

查看丢包方法2:sar -n EDEV 查看 #rxdrop/s

当由于缓冲区满的时候,网卡设备接收端每秒钟丢掉的网络包的数目

TongLINKQ监控指标 监控数据指标_linux_16

查看丢包的方法3:网络延迟:ping -c 次数 服务器IP或域名 查看packet los

例如: ping –c 100 www.baidu.com

TongLINKQ监控指标 监控数据指标_服务器_17

错误重传: ./nicstat.sh -t 查看%ReTX : TCP报文重传率
标准:<1%

TongLINKQ监控指标 监控数据指标_TCP_18

 3.网络延迟

网络延迟:ping -c 次数 服务器IP或域名
标准:avg<100ms
例如: ping –c 100 www.baidu.com

TongLINKQ监控指标 监控数据指标_linux_19

4.网络错误

方法1: sar -n EDEV 查看:#txerr/s 每秒钟发送的数据包错误数

TongLINKQ监控指标 监控数据指标_网络_20

方法2: ifconfig 出现:"errors"

TongLINKQ监控指标 监控数据指标_网络_21

标准:不能出现错误

TongLINKQ监控指标 监控数据指标_TongLINKQ监控指标_22