51Testing软件测试论坛

 找回密码
 (注-册)加入51Testing

QQ登录

只需一步,快速开始

微信登录,快人一步

查看: 4257|回复: 8
打印 上一主题 下一主题

[原创] nmon for SUSE Linux监控指标总结(一)

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2014-7-8 14:51:25 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 dionysus 于 2014-7-8 18:58 编辑

本文结合我在农行近年来承接的SUSE Linux平台性能测试项目,总结了nmon for SUSE Linux各项监控指标的含义。本文中总结的指标均来自真实项目,非单纯的词句翻译。大部分截图对服务器分区名称,id等信息进行了处理,但不影响正常分析。为突出各Sheet页里的指标特点,本文中的指标举例来自多个项目,因此各Sheet之间的指标值会不一致。
其中nmon for SUSE Linux推荐版本为14i,文中大部分截图也以14i版本生成的nmon为准,nmon analyser推荐版本为3.4.a。监控过程中增加参数-T以生成TOP等Sheet,加-N以生成NFS Sheet。
由于项目特点所限,nmon中的Sheet不一定全面,最后,由于经验所限指标内容解读难免有差错,请参考阅读。
1.        SYS_SUMM
本Sheet显示当前服务器的总体性能情况。

Total System I/OStatistics:
        Avg tps during an interval:显示采集间隔内磁盘平均I/O次数,该值等于Sheet DISK_SUMM中IO/sec列的平均值。
        Max tps during an interval:显示采集间隔内磁盘最大I/O次数,该值等于Sheet DISK_SUMM中IO/sec列的最大值。
        Max tps interval time:显示磁盘最大I/O所在时间点。
        Total number of Mbytes read:显示采集间隔内磁盘读的总兆字节数,可能是nmon的bug,该值并不准确,并且使用LVM划分的虚拟磁盘可能会存在重复统计。
        Total number of Mbytes written:显示采集间隔内磁盘写的总兆字节数,该值并不准确,理由同上。
        Read/Write Ratio:显示Total number of Mbytes read/ Total number of Mbytes written的值。
        IO/sec:仅显示磁盘IO/sec的图,不包括Network的I/O。
CPU:
        Users%:显示采集间隔内所有CPU在User Mode下的Time占比(Avg、Max)。
        Sys%:显示采集间隔内所有CPU在System Mode下的Time占比(Avg、Max)。
        Wait%:显示采集间隔内所有CPU处于空闲且等待I/O完成的时间比例(Wait%是CPU空闲状态的一种,当CPU处于空闲状态而又有进程处于D状态(不可中断睡眠)时,系统会统计这时的时间,并计算到Wait%里),Wait%不是一个时间值,而是时间的比例,因此在同样I/O Wait时间下,服务器CPU越多,Wait%越低,它体现了I/O操作与计算操作之间的比例。对I/O密集型的应用来说一般Wait%较高,且Sheet PROC中Blocked也较高,这时需关注是什么导致了过多的进程等待。
        Idle%:显示采集间隔内所有CPU处于空闲Time的占比(Avg、Max)。
        CPU%:显示采集间隔内所有CPU的user%+system%。
2.        AAA
本Sheet显示当前服务器基本信息,如操作系统版本,当前LPAR名,采集时间和次数等。
3.        StrayLines
显示本次nmon分析文件中未生成的采集值。
4.        BBBP
由于本Sheet内容较多,因此仅选主要内容介绍。

如上图,显示当前服务器的基础资源信息,当前服务器操作系统是SUSE Linux Enterprise Server 11 SP2,64bit版本。

使用的是AMD Opteron 6172处理器,共有4个CPU(Core)。

如上图,显示当前服务器的内存资源。
        MemTotal:显示当前服务器物理内存大小,本服务器有8063180 KB≈7874 MB左右。
        MemFree:显示当前服务器的空闲内存大小,本服务器有5052336 KB≈4934 MB左右。
        Buffers:显示当前服务器Buffer(在内存中要写到磁盘上的)缓存的大小,本服务器有459108 KB≈448 MB左右,注意,这里的数值仅是采集初期的静态值,具体Buffer的变化还需要看Sheet MEM。
        Cached:显示当前服务器Cache缓存的大小(从磁盘读取到内存的),本服务器有1032572 KB≈1008 MB左右。,这里的数值仅是采集初期的静态值,具体Buffer的变化还需要看Sheet MEM。
        SwapCached:显示当前服务器Swap空间已缓存的大小,本服务器尚未使用到Swap空间。
        SwapTotal:显示当前服务器Swap空间大小,本服务器有8385532 KB≈8189 MB左右。
        SwapFree:显示当前服务器Swap空闲空间大小,本服务器Swap空间都空闲。

由于执行nmon时所属系统组权限不同,因此BBBP里磁盘的信息可能会缺失,如上图是root权限执行nmon生成文件后显示的磁盘信息,可以看到每个磁盘的大小及磁盘下的分区用途。

如果系统中使用LVM划分了虚拟磁盘,则还能在mapper中看到相关信息,如上图,vgsystem为VG(卷组)名,lv_opt等为LV(逻辑卷)名,LV对应的设备名就是下面的/dev/dm-x。

如上图,显示当前服务器有1个以太网口,一个loop back网口。
5.        CPU_ALL
本Sheet显示当前服务器所有CPU在采集时间段内的利用率,按时间及User%、System%、Wait%显示。



当前服务器共有4颗CPU(Core)。
一般情况下CPU利用率里User%应占70%左右,Sys%应占30%左右,如果Sys%或Wait%占比等于或超过了User%则应该关注是什么引起了过多的系统消耗,可能是大量的Disk或Network I/O。
如下图,这个项目随着并发的增加,应用进程对CPU的消耗都增加在Wait%上,经排查是由于NFS读写遇到瓶颈导致:

6.        CPU_SUMM
本Sheet显示当前服务器所有CPU的利用率,当前服务器共有4个CPU(Core),每个CPU负载有所不同。

7.        DISK_SUMM
本Sheet按采集时间显示所有磁盘和分区的Read/Write的速率(KB/s)和所有磁盘和分区的I/O率。某一采集时间点的IO/sec等于Sheet DISKXFER中该时间点上所有磁盘和分区的IO/sec之和。因此,这一时间点上的I/O值是重复的!另外,本Sheet中的I/O不包括NFS里的I/O。





如上图的WAvg按nmon Guide中的说法是为了去掉采集值中的零值以便贴近真实平均值,但WAvg的公式(对计算列中所有值取平方后加合,再除以列中所有值之和)却不是单纯的去掉零值,这里可以理解为WAvg比Avg更贴近资源消耗的均值,因此以后所有资源Sheet中都推荐关注WAvg。
IBM Redpaper《Linux Performance and Tuning Guidelines》中介绍Linux的I/O子系统架构如下:

nmon(包括iostat)对系统I/O的指标截取大部分来自/proc/diskstats,而这些值来自block layer层,LVM里的Logical Volume会“visible as a standard block device”,因此真实的磁盘,LVM的逻辑卷,分区等在这里都会显示,在nmon计算总值时会被重复统计。
Disk Read/Write KB是同一采集时间点下Sheet DISKREAD、DISKWRITE里该行(所有磁盘和分区)数值之和,必然包括了重复值,例如某一时刻sda磁盘共write 1000 KB,其中sda1分区write 700 KB,sda3分区write 300 KB,这一时刻Disk Write应是1000 KB,但这里却会重复统计分区数值,导致显示为Disk Write 2000 KB。Disk I/O也存在同样的问题!
还需注意一点,部分nmon生成文件里图中标题指标为kb(小写)/s,但实际统计的却是KB(大写)/s。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?(注-册)加入51Testing

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏2
回复

使用道具 举报

该用户从未签到

2#
 楼主| 发表于 2014-7-8 19:10:12 | 只看该作者
实在搞不明白51这个上传图片怎么弄,还是贴露了一个图,不整了。
最近一直在收集整理nmon数据的解读,这算是个试读吧,后续还有磁盘瓶颈,内存泄露等指标的查看。
回复 支持 反对

使用道具 举报

  • TA的每日心情
    开心
    2014-10-16 09:54
  • 签到天数: 1 天

    连续签到: 1 天

    [LV.1]测试小兵

    3#
    发表于 2014-7-10 11:31:54 | 只看该作者
    收藏
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    4#
    发表于 2014-8-6 15:22:03 | 只看该作者
    很好,顶下希望更多人看到,期待后续
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    5#
    发表于 2014-8-6 22:12:02 | 只看该作者
    学习下,楼主辛苦了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2022-5-8 19:23
  • 签到天数: 137 天

    连续签到: 1 天

    [LV.7]测试师长

    6#
    发表于 2014-8-31 21:57:22 | 只看该作者
    功能很强大,只是用起来不是很方便
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    2022-5-8 19:23
  • 签到天数: 137 天

    连续签到: 1 天

    [LV.7]测试师长

    7#
    发表于 2014-8-31 21:57:44 | 只看该作者
    用开源的监控工具,带图片界面的更方便一些
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016-1-20 15:44
  • 签到天数: 93 天

    连续签到: 1 天

    [LV.6]测试旅长

    8#
    发表于 2014-10-30 15:46:32 | 只看该作者
    谢谢楼主那么辛苦的分享
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    9#
    发表于 2015-11-5 13:12:16 | 只看该作者
    期待楼主继续更新
    回复 支持 反对

    使用道具 举报

    本版积分规则

    关闭

    站长推荐上一条 /1 下一条

    小黑屋|手机版|Archiver|51Testing软件测试网 ( 沪ICP备05003035号 关于我们

    GMT+8, 2024-5-24 11:37 , Processed in 0.075001 second(s), 27 queries .

    Powered by Discuz! X3.2

    © 2001-2024 Comsenz Inc.

    快速回复 返回顶部 返回列表