hbase的jmx在1.0后分开了master和regionserver的jmx监控,其中master的页面在master_HOSTNAME:60010/jmx页面中,regionserver在REGIONSERVER_HOSTNAME:60030/jmx中,如果想更详细的信息使用http://REGIONSERVER_HOSTNAME:60030/jmx?description=true。页面展示的是json文件,可以将该页面信息发送给ganglia,zabbix等监控工具,hbase原生支持ganglia,如果发送给zabbix,需要自己开发获取其中的数据,解析出来。数据的格式一般是最外层一个beans的key,里面的value是一个jsonarray。arrayobject里面可能包含jsonobjec或者jsonarray。下面挑选出一些重要的指标作监控,并记录其含义,都是个人整理,如有错误,欢迎指正。
master只监控了一个指标,就是挂了的regionserver数,下面主要监控regionserver的指标:
监控指标 | 范围 | 指标含义 |
OpenFileDescriptorCount | Regionserver本机 | 当前机器打开文件数 |
FreePhysicalMemorySize | Regionserver本机 | 空虚物理内存大小 |
AvailableProcessors | Regionserver本机 | 可用cpu个数 |
Region前缀--storeCount | 单个region | Store个数 |
Region前缀--storeFileCount | 单个region | Storefile个数 |
Region前缀--memStoreSize | 单个region | Memstore大小 |
Region前缀--storeFileSize | 单个region | Storefile大小 |
Region前缀--compactionsCompletedCount | 单个region | 合并完成次数 |
Region前缀--numBytesCompactedCount | 单个region | 合并文件总大小 |
Region前缀-- numFilesCompactedCount | 单个region | 合并完成文件个数 |
totalRequestCount | Regionserver | 总请求数 |
readRequestCount | Regionserver | 读请求数 |
writeRequestCount | Regionserver | 写请求数 |
compactedCellsCount | Regionserver | 合并cell个数 |
majorCompactedCellsCount | Regionserver | 大合并cell个数 |
flushedCellsSize | Regionserver | flush到磁盘的大小 |
blockedRequestCount | Regionserver | 因memstore大于阈值而引发flush的次数 |
splitRequestCount | Regionserver | region分裂请求次数 |
splitSuccessCounnt | Regionserver | region分裂成功次数 |
slowGetCount | Regionserver | 请求完成时间超过1000ms的次数 |
numOpenConnections | Regionserver | 该regionserver打开的连接数 |
numActiveHandler | Regionserver | rpc handler数 |
receivedBytes | Regionserver | 收到数据量 |
sentBytes | Regionserver | 发出数据量 |
HeapMemoryUsage --->>>used | Regionserver | 堆内存使用量 |
SyncTime_mean | Regionserver | WAL写hdfs的平均时间 |
regionCount | Regionserver | Regionserver管理region数量 |
memStoreSize | Regionserver | Regionserver管理的总memstoresize |
storeFileSize | Regionserver | 该Regionserver管理的storefile大小 |
staticIndexSize | Regionserver | 该regionserver所管理的表索引大小 |
storeFileCount | Regionserver | 该regionserver所管理的storefile个数 |
hlogFileSize | Regionserver | WAL文件大小 |
hlogFileCount | Regionserver | WAL文件个数 |
storeCount | Regionserver | 该regionserver所管理的store个数 |
Name: java.lang:type=MemoryPool,name=Par Eden Space CollectionUsage—>>used | Regionserver | Eden区使用空间大小 |
Name: java.lang:type=MemoryPool,name=CMS Old Gen CollectionUsage—>>used | Regionserver | 老年代内存大小 |
Name: java.lang:type=MemoryPool,name=Par Survivor Space CollectionUsageà> used | Regionserver | Survivor内存大小 |
|
| |
GcTimeMillis | Regionserver | GC总时间 |
GcTimeMillisParNew | Regionserver | ParNew GC时间 |
GcCount | Regionserver | GC总次数 |
GcCountConcurrentMarkSweep | Regionserver | ConcurrentMarkSweep总次数 |
GcTimeMillisConcurrentMarkSweep | Regionserver | ConcurrentMarkSweep GC时间 |
ThreadsBlocked | Regionserver | Block线程数 |
ThreadsWaiting | Regionserver | 等待线程数 |
注:Region前缀表示namespaceName-tableName-regionName-,例如,Namespace_default_table_tablename_region_xxx_metric_incrementCount表示该region的incrementCount这个指标。
hbase的jmx在1.0后分开了master和regionserver的jmx监控,其中master的页面在master_HOSTNAME:60010/jmx页面中,regionserver在REGIONSERVER_HOSTNAME:60030/jmx中,如果想更详细的信息使用http://REGIONSERVER_HOSTNAME:60030/jmx?description=true。页面展示的是json文件,可以将该页面信息发送给ganglia,zabbix等监控工具,hbase原生支持ganglia,如果发送给zabbix,需要自己开发获取其中的数据,解析出来。数据的格式一般是最外层一个beans的key,里面的value是一个jsonarray。arrayobject里面可能包含jsonobjec或者jsonarray。下面挑选出一些重要的指标作监控,并记录其含义,都是个人整理,如有错误,欢迎指正。
master只监控了一个指标,就是挂了的regionserver数,下面主要监控regionserver的指标:
监控指标 | 范围 | 指标含义 |
OpenFileDescriptorCount | Regionserver本机 | 当前机器打开文件数 |
FreePhysicalMemorySize | Regionserver本机 | 空虚物理内存大小 |
AvailableProcessors | Regionserver本机 | 可用cpu个数 |
Region前缀--storeCount | 单个region | Store个数 |
Region前缀--storeFileCount | 单个region | Storefile个数 |
Region前缀--memStoreSize | 单个region | Memstore大小 |
Region前缀--storeFileSize | 单个region | Storefile大小 |
Region前缀--compactionsCompletedCount | 单个region | 合并完成次数 |
Region前缀--numBytesCompactedCount | 单个region | 合并文件总大小 |
Region前缀-- numFilesCompactedCount | 单个region | 合并完成文件个数 |
totalRequestCount | Regionserver | 总请求数 |
readRequestCount | Regionserver | 读请求数 |
writeRequestCount | Regionserver | 写请求数 |
compactedCellsCount | Regionserver | 合并cell个数 |
majorCompactedCellsCount | Regionserver | 大合并cell个数 |
flushedCellsSize | Regionserver | flush到磁盘的大小 |
blockedRequestCount | Regionserver | 因memstore大于阈值而引发flush的次数 |
splitRequestCount | Regionserver | region分裂请求次数 |
splitSuccessCounnt | Regionserver | region分裂成功次数 |
slowGetCount | Regionserver | 请求完成时间超过1000ms的次数 |
numOpenConnections | Regionserver | 该regionserver打开的连接数 |
numActiveHandler | Regionserver | rpc handler数 |
receivedBytes | Regionserver | 收到数据量 |
sentBytes | Regionserver | 发出数据量 |
HeapMemoryUsage --->>>used | Regionserver | 堆内存使用量 |
SyncTime_mean | Regionserver | WAL写hdfs的平均时间 |
regionCount | Regionserver | Regionserver管理region数量 |
memStoreSize | Regionserver | Regionserver管理的总memstoresize |
storeFileSize | Regionserver | 该Regionserver管理的storefile大小 |
staticIndexSize | Regionserver | 该regionserver所管理的表索引大小 |
storeFileCount | Regionserver | 该regionserver所管理的storefile个数 |
hlogFileSize | Regionserver | WAL文件大小 |
hlogFileCount | Regionserver | WAL文件个数 |
storeCount | Regionserver | 该regionserver所管理的store个数 |
Name: java.lang:type=MemoryPool,name=Par Eden Space CollectionUsage—>>used | Regionserver | Eden区使用空间大小 |
Name: java.lang:type=MemoryPool,name=CMS Old Gen CollectionUsage—>>used | Regionserver | 老年代内存大小 |
Name: java.lang:type=MemoryPool,name=Par Survivor Space CollectionUsageà> used | Regionserver | Survivor内存大小 |
|
| |
GcTimeMillis | Regionserver | GC总时间 |
GcTimeMillisParNew | Regionserver | ParNew GC时间 |
GcCount | Regionserver | GC总次数 |
GcCountConcurrentMarkSweep | Regionserver | ConcurrentMarkSweep总次数 |
GcTimeMillisConcurrentMarkSweep | Regionserver | ConcurrentMarkSweep GC时间 |
ThreadsBlocked | Regionserver | Block线程数 |
ThreadsWaiting | Regionserver | 等待线程数 |
注:Region前缀表示namespaceName-tableName-regionName-,例如,Namespace_default_table_tablename_region_xxx_metric_incrementCount表示该region的incrementCount这个指标。