BiSheng 发表于 2006-2-16 17:24:38

各项硬件使用剖析(一)---让你一眼就能区分瓶颈是Memory、processor ORdisk!

各项硬件使用剖析(一)
各项硬件的资源,如CPU、内存、硬盘输入输出、网络带宽等等。在实际查看架构之前,先强调一个观念,不管是使用系统上哪一种资源,当使用率持续超过80%时,系统的性能一定会急速下滑,而不会显示线性关系,如下图所示:

    响应时间




               
               使用率      80%
         资源使用率与系统响应时间的关系
注:从《操作系统》的知识来理解,如果在多用户环境中cup的使用率大于80%,进程就会在运行队列中花费大量的等待时间,响应时间和吞吐量就会下降。
3.1,内存Memory
      通常系统中所发生的问题是由于内存不足所导致,这是较常见的。所以我们应该先监视内存,确认我们的服务器有足够的内存。若要执行 windows 2000 上的 iis 5.0(如MOD的web服务),一个专用web 服务器所需 ram 的最小容量是 128mb,但最好是 256mb 到 1gb。因为「iis 文件缓存」默认是使用最多一半可用的内存,因此备有的内存越多,「iis 文件缓存」就越多。

  附注:windows 2000 advanced server 最多可支持 8gb 的 ram,但是「iis文件缓存」将不会利用 4gb 以上的 ram。
   所有在Windows系统执行的应用程序都以为自已最起码有2GB的连续内存(称之为虚拟内存),当应用程序的线程在存取内存时,操作系统会将其映射(mapping)到某块物理内存,若物理内存不足,操作系统就把物理内存中某些较少用到的区块写至硬盘,以空出该物理内存给当前需要的程序。
Available MBytes 可用物理内存数
   说明:Available MBytes 是计算机上运行进程可用的物理内存数量,以兆字节为单位。通过计算清零、空闲和待命内存列表的内存空间总数而得到。空闲内存可以马上使用; 清零内存是由零值填满的内存页,用来防止后续进程获得旧进程使用的数据; 待命内存是从进程工作集(其物理内存)中删除然后进入磁盘的内存,但是该内存仍然可以收回。该计数器仅显示最后一次观察到的值; 不是平均值。
   技 术 :一般要保留10%的可用内存。最低最低不能<4M,此值过小可能是内存不足或内存泄漏;
   原 因 :因为IIS默认最多会使用50%的可用内存供文件缓存使用,所以要保留10%的可用内存(以供尖峰时间使用)。
   知识点:物理内存、虚拟内存、IIS文件缓存、清0内存(程序常发生的错误)、待命内存。

      
Page Faults/sec、Pages Input/sec、Page Reads/sec
    注(重要):导致严重的延迟原因:是因为硬件分页错误。
   说 明: Page Faults/sec 是指处理器处理错误页的综合速率。用错误页数/秒来计算。当处理器请求一个不在其工作集(在物理内存中的空间)内的代码或数据时出现的页错误。这个计数器包括硬错误(那些需要磁盘访问的)和软错误(在物理内存的其它地方找到的错误页)。许多处理器可以在有大量软错误的情况下继续操作。但是,硬错误可以导致明显的拖延。
      Pages Input/sec 指为解决页错误从磁盘上读取的页数。(当处理需要不在其工作集或物理内存的任何地方的代码或数据,而需要从磁盘上检索时出现硬页错误)。
             Page Reads/sec 是指为解析硬页错误而读取磁盘的次数。(当处理请求的硬 页错误不在工作集和物理内存其它地方中的代码或数据,而必须从磁盘上检索时 就会出现硬页错误)。如果 Page Reads/Sec 比率持续保持为 5,表示可能内存不足(阈值为>5.越小越好)。

   可能引起页面错误的操作:应用程序向内存请求一个分页,但系统无法在所需的位置上找到它,就构成了一个页面错误。
   技 术:
         总述:可能涉及到1,由于页交换而导致内存不足;2,由于页交换而导致磁盘瓶颈;
               当这些值很低时,服务器应该可以很快地响应请求;当这些值较高时,是因为你花了太多的内存在缓存处理上,而没有留足够的内存供系统的其它部份使用。可以增加内存或降低缓存的ram大小来解决;
         详细:
            page Faults/sec:只表明数据不能在内存的指定工作集中立即使用;
            page Input/sec: page input/sec > page reads/sec;
            page Reads/sec: 阈值为>5.越小越好,大数值表示磁盘读而不是缓存读;
Page/sec:指为解析硬页错误从磁盘读取或写入磁盘的页数(是Pages Input/sec 和 Pages Output/sec 的总和)。其值推荐00-20如果服务器没有足够的内存处理其工作负荷,此数值将一直很高。如果大于80,表示有问题(太多的读写数据操作要访问磁盘,可考虑增加内存或优化读写数据的算法),如果值比较低,说明Web 服务器响应请求比较快,否则可能是服务器系统内存短缺引起( 也可能是缓存太大,导致系统内存太少)。

3.2,Processor
随着用户请求从网站获得快速的响应时间,以及在这些网站上不断增加的动态内容,需要利用到快速、有效的处理器用量。当一个或多个进程几乎耗尽所有处理器时,就会发生瓶颈,这会迫使准备好执行的进程线程必须在队列中等待处理器时间。
(web方面) windows 2000 及 iis 5.0 的最大性能增益来自于解决内存问题。在决定改变web 服务器上处理器的个数之前,请先排除内存问题,再监视下列「性能计数器」。
% Processor Time 指处理器执行非闲置线程时间的百分比;通俗一点讲就是CPU 使用率。这是监视处理器活动的主要指示器。它通过在每个范例间隔中衡量处理器用于执行闲置处理线程的时间,并且用100%减去该值得出。(每台处理器有一个闲置线程,该线程在没有其它线程可以运行时消耗周期)。可将其视为范例间隔用于做有用工作的百分比。
正常值<90,此值过大表示处理器的性能已经不能应付程序的要求,要换更快的处理器。该数值持续超过 90%,则表示此测试的负载对于目前的硬件过于沉重。排除内存因素,如果该计数器的值比较大,而同时网卡和硬盘的值比较低,那么可以确定CPU 瓶颈。

Processor Queue Length:是指处理列队中的线程数。显示在由 Web服务器所有处理器共享的队列中等待执行的线程数。如果处理器列队中总是有2个以上的线程通常表示处理器堵塞。
参考值:小于2。处理器瓶颈会导致该值持续大于 2。


3.3, Physical Disk:
    因为 MOD的WEB(iis 5.0) 会将记录文件写入磁盘上,所以在一般磁盘活动中,甚至会有高达 100 % 的客户端缓存存取次数。一般来说,如果有记录以外的大量磁盘读取活动,即表示系统上有其它区域需要调整。例如,硬件分页错误会导致大量的磁盘活动,但它们表示 ram 不足。

%Disk Time %:指所选磁盘驱动器忙于为读或写入请求提供服务所用的时间的百分比。如果三个计数器都比较大,那么硬盘不是瓶颈。如果只有%Disk Time比较大,另外两个都比较适中,硬盘可能会是瓶颈。在记录该计数器之前,请在Windows 2000 的命令行窗口中运行diskperf -yD。正常值<10,此值过大表示耗费太多时间来访问磁盘,可考虑增加内存、更换更快的硬盘、优化读写数据的算法。若数值持续超过80 (此时处理器及网络连接并没有饱和),则可能是内存泄漏。

Pages per second :每秒钟检索的页数。该数字应少于每秒一页。


如果这三个计数器(processor: % processor time, network interface connection: bytes total/sec及physicaldisk: % disk time)的值都很高,则硬盘不会引起站点的瓶颈。

补充:
Avg. Disk Queue Length 指读取和写入请求(为所选磁盘在实例间隔中列队的)的平均数。正常值<0.5,此值过大表示磁盘IO太慢,要更换更快的硬盘。
Disk Transfers/sec 指在此盘上读取/写入操作速率。正常值<(Disk Bytes/sec)/3,此值过大表示系统要求的IO速度已接近硬盘的最大速度,要更换更快的硬盘。
    磁盘使用情况计数器和内存计数器(磁盘瓶颈or内存不足?):
Physical Disk\ % Disk Time 、Physical Disk\ Avg.Disk Queue Length 例如,包括 Page Reads/sec 和 % Disk Time 及 Avg.Disk Queue Length。如果页面读取操作速率很低,同时 % Disk Time 和 Avg.Disk Queue Length的值很高,则可能有磁盘瓶径。但是,如果队列长度增加的同时页面读取速率并未降低,则内存不足。

   3.4, 网络容量、等待时间及带宽
测试目标:在系统试运行之后,需要及时准确地了解网络上正在发生什么事;什么应用在运行,如何运行;多少PC正在访问LAN或WAN;哪些应用程序导致系统瓶颈或资源竞争
作用
1,分析关键应用程序的性能
2,定位问题的根源是在客户端、服务器、应用程序还是网络
3,哪些应用程序占用大量带宽
基本上,网络是客户端向服务器传送请求的线路。它花在您的服务器上来回传递这些请求及响应的时间,对用户能察觉的服务器性能来说是个最大限制因素之一。这种请求-响应的循环时间就称为等待时间,等待时间对于web 服务器管理员来说几乎是无法控制的。例如,您对 internet 上速度缓慢的路由器,或是客户端及服务器之间的物理距离所能作的处理实在不多。
   在主要是由静态内容组成的站点上,网络带宽最有可能是性能瓶颈的来源。即使是一般的服务器也可能用满一条 t3 连接 (45mbps) 或 100mbps fast ethernet 连接。测量有效带宽最简单的方法是判定您的服务器是以哪个速度传送及接收资料的。
Network Interface Bytes Total/sec: 为发送和接收字节的速率,包括帧字符在内。判定网络连接是否存在瓶颈。若要在传送量中留些空间供尖峰时间用,则不应常使用超过 50% 的容量。如果这个数字十分接近连接的容量,而处理器及内存的使用都很适中,则此连接也会是个问题。参考值:该计数器的值和目前网络的带宽相除,结果应该小于50%。
如果您正在计算机上执行的其他服务也使用网络连接,请监视「web service: maximum connections」及「web service: total connection attempts」计数器,以检查您的web服务器是否能够尽可能地使用它需要的连接数目。请记得将这些数字与内存及处理器使用量作比较,如此才能确定连接就是问题,而不是其它组件有问题。
Connection Attempts/sec:Web服务尝试连接的频率。
Maximun Connections:“最大连接数”是和Web服务同时建立起来的最大连接数。

[ 本帖最后由 BiSheng 于 2007-4-3 14:34 编辑 ]

李zi 发表于 2006-2-17 16:41:32

收藏了!

感谢楼主分享!

luxuabc 发表于 2006-2-17 18:22:00

收藏此贴!

mojinde 发表于 2006-2-20 16:33:25

顶,已经收藏

testman 发表于 2006-2-20 16:44:26

收藏了,谢谢搂主!

wjmiao 发表于 2006-2-23 15:23:34

OK,谢谢!!

performer 发表于 2006-2-23 21:32:25

不错,其实大家可以到Windows帮助看看,好资料就在我们周围,问题是你看不看

BiSheng 发表于 2006-3-6 16:12:53

同意楼上的看法

alexchen 发表于 2006-3-6 21:23:01

挺好的,谢谢!

davydavy 发表于 2006-3-7 16:49:23

顶!!!

yongjun4 发表于 2006-3-8 09:23:50

对各项参数的说明我也看过,可就是分析起来还是不知道如何是好,不过还是要感谢lz!

今天有雾 发表于 2006-3-13 14:46:19

好分享,多谢楼主

sunfy 发表于 2006-3-24 11:27:45

感谢楼主

hyaabb 发表于 2006-3-24 13:40:58

兄弟:多少你也分下行嘛

行不?

ilovezhoujoe 发表于 2007-7-2 11:20:32

回复 #1 BiSheng 的帖子

好东西

冰清 发表于 2007-7-2 11:44:38

好好学习!

xihong2004 发表于 2008-10-21 16:51:27

这么好的东东,居然没人顶
我来顶一下下

xihong2004 发表于 2008-10-21 16:52:50

美中不足,没有图

xyqisabel 发表于 2008-10-22 16:39:20

好帖,收藏

cafard-haibin 发表于 2008-10-27 11:14:30

如果真想对性能测试计数器有个深入的理解。就像楼主提供的信息一样,好好看看《操作系统》课程吧。
页: [1] 2
查看完整版本: 各项硬件使用剖析(一)---让你一眼就能区分瓶颈是Memory、processor ORdisk!