Linux性能监控之CPU篇(2)
<P>正如我们之前讨论的任何系统的性能比较都是基于基线的,并且监控CPU的性能就是以上3点,运行队列、CPU使用率和上下文切换。以下是一些对于CPU很普遍的性能要求:<BR>1. 对于每一个CPU来说运行队列不要超过3,例如,如果是双核CPU就不要超过6;<BR>2. 如果CPU在满负荷运行,应该符合下列分布,<BR>a) User Time:65%~70%<BR>b) System Time:30%~35%<BR>c) Idle:0%~5%<BR>3. 对于上下文切换要结合CPU使用率来看,如果CPU使用满足上述分布,大量的上下文切换也是可以接受的。</P><P>常用的监视工具有,vmstat, top,dstat和mpstat.<BR># vmstat 1<BR>procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----<BR>r b swpd free buff cache si so bi bo in cs us sy id wa<BR>0 0 104300 16800 95328 72200 0 0 5 26 7 14 4 1 95 0<BR>0 0 104300 16800 95328 72200 0 0 0 24 1021 64 1 1 98 0<BR>0 0 104300 16800 95328 72200 0 0 0 0 1009 59 1 1 98 0</P>
<P>r表示运行队列的大小,<BR>b表示由于IO等待而block的线程数量,<BR>in表示中断的数量,<BR>cs表示上下文切换的数量,<BR>us表示用户CPU时间,<BR>sys表示系统CPU时间,<BR>wa表示由于IO等待而是CPU处于idle状态的时间,<BR>id表示CPU处于idle状态的总时间。</P>
<P>dstat可以给出每一个设备产生的中断数:<BR># dstat -cip 1<BR>----total-cpu-usage---- ----interrupts--- ---procs---<BR>usr sys idl wai hiq siq| 15 169 185 |run blk new<BR>6 1 91 2 0 0| 12 0 13 | 0 0 0<BR>1 0 99 0 0 0| 0 0 6 | 0 0 0<BR>0 0 100 0 0 0| 18 0 2 | 0 0 0<BR>0 0 100 0 0 0| 0 0 3 | 0 0 0<BR>我们可以看到这里有3个设备号15,169和185.设备名和设备号的关系我们可以参考文件/proc/interrupts, 这里185代表网卡eth1.<BR># cat /proc/interrupts<BR>CPU0<BR>0: 1277238713 IO-APIC-edge timer<BR>6: 5 IO-APIC-edge floppy<BR>7: 0 IO-APIC-edge parport0<BR>8: 1 IO-APIC-edge rtc<BR>9: 1 IO-APIC-level acpi<BR>14: 6011913 IO-APIC-edge ide0<BR>15: 15761438 IO-APIC-edge ide1<BR>169: 26 IO-APIC-level Intel 82801BA-ICH2<BR>185: 16785489 IO-APIC-level eth1<BR>193: 0 IO-APIC-level uhci_hcd:usb1</P>
<P>mpstat可以显示每个CPU的运行状况,比如系统有4个CPU。我们可以看到:<BR># mpstat –P ALL 1<BR>Linux 2.4.21-20.ELsmp (localhost.localdomain) 05/23/2006<BR>05:17:31 PM CPU %user %nice %system %idle intr/s<BR>05:17:32 PM all 0.00 0.00 3.19 96.53 13.27<BR>05:17:32 PM 0 0.00 0.00 0.00 100.00 0.00<BR>05:17:32 PM 1 1.12 0.00 12.73 86.15 13.27<BR>05:17:32 PM 2 0.00 0.00 0.00 100.00 0.00<BR>05:17:32 PM 3 0.00 0.00 0.00 100.00 0.00</P>
<P>总结的说,CPU性能监控包含以下方面:<BR>检查系统的运行队列,确保每一个CPU的运行队列不大于3.<BR>确保CPU使用分布满足70/30原则(用户70%,系统30%)。<BR>如果系统时间过长,可能是因为频繁的调度和改变优先级。<BR>CPU Bound进程总是会被惩罚(降低优先级)而IO Bound进程总会被奖励(提高优先级)。<BR></P>
页:
[1]