原标题:AIX 性能监控 13 个方法

CPU

1. 检测系统的CPU使用率:

vmstat 2 5

2秒执行一次,共执行5次

vmstat 2

2秒执行一次,直到人为停止命令

vmstat -w 2 使用宽距显示,更清晰,建议使用。

PdhAddCounter监控cpu使用率 aix监控cpu使用率_ci

cpu:

us

User time.用户CPU时间。

sy

System time.系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。

id

Processor idle time.空闲 CPU时间

wa

Processor idle time during which the system had outstanding disk/NFS I/O request(s). See detailed deion above.

表示IO等待时间,即系统等待未完成的 disk/NFS I/O 请求期间的CPU 空闲时间。

pc

Number of physical processors consumed. Displayed only if the partition is running with shared processor. 消耗掉几个物理cpu

说明:

如果us与sy之和持续超过90%时,CPU出现了瓶颈。

如果wa长期很高>50,则表示IO太忙,具体看是应用IO多,还是交换分页多,如果是后者,则显示内存不足;如果是前者,则应关注应用的IO性能状况,优化应用与磁盘设备

us + sy + id + wa =100

2. 检测进程的CPU的使用率:

topas

用于实时监控程序

CPU:

Idle% 如果接近0,意味着系统CPU不够用。

按c可以查看所有cpu的详细信息。

按p切换到进程视图。

3.一个轻量级的进程命令:

ps

如:dst33lp14:/home/devdba$ ps -ef

PdhAddCounter监控cpu使用率 aix监控cpu使用率_ci_02

C表示进程所消耗的cpu。

找出最消耗CPU的前5个进程:

ps -elf|sort +5 -rn|head -n 5

内存

1.svmon -G

b01pasd049:/db2/db2load6/codedrop/ESA4.8/ddl$ svmon -G

PdhAddCounter监控cpu使用率 aix监控cpu使用率_ci_03

size表示系统装配的物理内存页数,virtual表示系统工作所需要的页数,如果virtual大于size的值,表示物理内存资源不足。

2.topas

MEMORY:

如果Comp+Noncomp接近100%的时候,系统就很危险,当达到100%就会开始用PAGING SPACE,这时效率就会成百倍的下降,一旦用完系统就会crash,宕机。

一般Comp+Noncomp>=95就要想办法降内存,如果持续快速上涨并接近100%,需要尽快想办法释放内存,如force掉db的所有进程(force applications all)。

3.vmstat:

PdhAddCounter监控cpu使用率 aix监控cpu使用率_ios_04

fre表示空闲的物理内存页面数,avm列表示系统工作所需要的页面数(活动的内存页面数)。若fre持续较低说明内存不够用。

4.lsps -a

看换页空间使用情况,也可以通过topas的PAGING SPACE查看,若其使用率高且持续上升,说明内存资源严重不足,可能会造成宕机。

I/O

1.topas

查看网络情况

2.iostat

iostat 1 3 : 查看所有磁盘的io情况,每1秒显示一次,共3次。

iostat -d hdisk6 2 :显示某个磁盘(hdisk6)的io情况,2秒显示一次。

iostat -D 1 2 :D表示显示所有磁盘情况,显示详细的磁盘io情况,后面1 2表示1秒钟显示一次,总共显示2轮

具体步骤:

iostat查看,如果IO wait(% iowait)长时间持续大于25%,可以认为系统中可能存在IO瓶颈。可以先用topas查看存储(Disk)的繁忙程度Busy%,监控BPS,TPS等指标。然后再用iostat收集磁盘具体使用数据。

b01pasd021:/db2/db2load6/codedrop/ESA4.8/ddl$ iostat 2

System configuration: lcpu=64 drives=9 ent=1.60 paths=18 vdisks=2

PdhAddCounter监控cpu使用率 aix监控cpu使用率_物理内存_05

3.vmstat

cpu部分,如果wa长期很高>50,则表示IO太忙,具体看是应用IO多,还是交换分页多,如果是后者,则显示内存不足;如果是前者,则应关注应用的IO性能状况,优化应用与磁盘设备

网络

1.netstat 2

如果errs列持续不为0,表示网络设备存在故障。

2.topas

Network部分:

BPS:每秒钟所有的网络读取大小。

I-Pkts:每秒钟接收到的数据包个数

O-Pack:每秒钟输入的数据包个数

KB-In:每秒钟接收到的数据大小(KB)

B-Out: 每秒钟输出的数据大小(KB)

3.通过ping 测试网络状况是否有问题

如:ping g01acirdb025.ahe.pok.ibm.com

可以通过time来查看通信速度,越小越好。

--- b03aciapp017.ahe.boulder.ibm.com ping statistics ---

207 packets transmitted, 207 packets received, 0% packet loss

round-trip min/avg/max = 60/60/68 m

看通信情况要看: 1.数据包是否丢失,2. 数据包来回传递时间:min/avg/max,值越小速度越快,看最大值和最小值差别很大说明不稳定。

后台跑,ping 2500次 :

nohup ping -c2500 g01acirdb025.ahe.pok.ibm.com>sc_ping.txt &