原标题:AIX 性能监控 13 个方法
CPU
1. 检测系统的CPU使用率:
vmstat 2 5
2秒执行一次,共执行5次
vmstat 2
2秒执行一次,直到人为停止命令
vmstat -w 2 使用宽距显示,更清晰,建议使用。
cpu:
us
User time.用户CPU时间。
sy
System time.系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。
id
Processor idle time.空闲 CPU时间
wa
Processor idle time during which the system had outstanding disk/NFS I/O request(s). See detailed deion above.
表示IO等待时间,即系统等待未完成的 disk/NFS I/O 请求期间的CPU 空闲时间。
pc
Number of physical processors consumed. Displayed only if the partition is running with shared processor. 消耗掉几个物理cpu
说明:
如果us与sy之和持续超过90%时,CPU出现了瓶颈。
如果wa长期很高>50,则表示IO太忙,具体看是应用IO多,还是交换分页多,如果是后者,则显示内存不足;如果是前者,则应关注应用的IO性能状况,优化应用与磁盘设备
us + sy + id + wa =100
2. 检测进程的CPU的使用率:
topas
用于实时监控程序
CPU:
Idle% 如果接近0,意味着系统CPU不够用。
按c可以查看所有cpu的详细信息。
按p切换到进程视图。
3.一个轻量级的进程命令:
ps
如:dst33lp14:/home/devdba$ ps -ef
C表示进程所消耗的cpu。
找出最消耗CPU的前5个进程:
ps -elf|sort +5 -rn|head -n 5
内存
1.svmon -G
b01pasd049:/db2/db2load6/codedrop/ESA4.8/ddl$ svmon -G
size表示系统装配的物理内存页数,virtual表示系统工作所需要的页数,如果virtual大于size的值,表示物理内存资源不足。
2.topas
MEMORY:
如果Comp+Noncomp接近100%的时候,系统就很危险,当达到100%就会开始用PAGING SPACE,这时效率就会成百倍的下降,一旦用完系统就会crash,宕机。
一般Comp+Noncomp>=95就要想办法降内存,如果持续快速上涨并接近100%,需要尽快想办法释放内存,如force掉db的所有进程(force applications all)。
3.vmstat:
fre表示空闲的物理内存页面数,avm列表示系统工作所需要的页面数(活动的内存页面数)。若fre持续较低说明内存不够用。
4.lsps -a
看换页空间使用情况,也可以通过topas的PAGING SPACE查看,若其使用率高且持续上升,说明内存资源严重不足,可能会造成宕机。
I/O
1.topas
查看网络情况
2.iostat
iostat 1 3 : 查看所有磁盘的io情况,每1秒显示一次,共3次。
iostat -d hdisk6 2 :显示某个磁盘(hdisk6)的io情况,2秒显示一次。
iostat -D 1 2 :D表示显示所有磁盘情况,显示详细的磁盘io情况,后面1 2表示1秒钟显示一次,总共显示2轮
具体步骤:
iostat查看,如果IO wait(% iowait)长时间持续大于25%,可以认为系统中可能存在IO瓶颈。可以先用topas查看存储(Disk)的繁忙程度Busy%,监控BPS,TPS等指标。然后再用iostat收集磁盘具体使用数据。
b01pasd021:/db2/db2load6/codedrop/ESA4.8/ddl$ iostat 2
System configuration: lcpu=64 drives=9 ent=1.60 paths=18 vdisks=2
3.vmstat
cpu部分,如果wa长期很高>50,则表示IO太忙,具体看是应用IO多,还是交换分页多,如果是后者,则显示内存不足;如果是前者,则应关注应用的IO性能状况,优化应用与磁盘设备
网络
1.netstat 2
如果errs列持续不为0,表示网络设备存在故障。
2.topas
Network部分:
BPS:每秒钟所有的网络读取大小。
I-Pkts:每秒钟接收到的数据包个数
O-Pack:每秒钟输入的数据包个数
KB-In:每秒钟接收到的数据大小(KB)
B-Out: 每秒钟输出的数据大小(KB)
3.通过ping 测试网络状况是否有问题
如:ping g01acirdb025.ahe.pok.ibm.com
可以通过time来查看通信速度,越小越好。
--- b03aciapp017.ahe.boulder.ibm.com ping statistics ---
207 packets transmitted, 207 packets received, 0% packet loss
round-trip min/avg/max = 60/60/68 m
看通信情况要看: 1.数据包是否丢失,2. 数据包来回传递时间:min/avg/max,值越小速度越快,看最大值和最小值差别很大说明不稳定。
后台跑,ping 2500次 :
nohup ping -c2500 g01acirdb025.ahe.pok.ibm.com>sc_ping.txt &