定位问题。找到影响CPU使用率过高的具体进程。
微软有多个工具可以定位CPU使用率过高的问题,例如任务管理器、资源监视器(Resource Monitor)、性能监视器(Performance Monitor)、Process Explorer、Xperf(Windows server 2008 以后)、KernRate(Windows server 2003),抓取系统Full Memory Dump进行检查。在流量大的情况下,您还可以使用Wireshark抓取一段时间的网络包,分析流量使用情况。
提示:Windows Server 2008以上系统,通常使用系统自带的资源监视器监控CPU。
- 在桌面底部单击 开始 菜单,选择 运行。
- 打开运行框后,在框中输入
perfmon -res
,并单击 确定。 - 在资源监视器页面中,查看各进程是否有CPU使用率过高的现象。
- 针对占用资源较高的进程,查看对应的进程ID和进程的程序名。
- 定位进程ID后,结合任务管理器判断程序是否异常并定位程序的具体位置。
- 定位异常进程前,需要在任务管理器中依次单击 查看(V)> 选择列(S)。
- 在弹出的框中选择 PID(进程标识符),单击 确定。
- 在任务管理器的进程页面中,将会增加PID这一项。单击 PID,通过排序,找到之前资源监视器查看到的异常进程。右键单击进程名称,选择打开文件位置,查案进程是不是恶意程序。
- 使用wmic命令方式(可使用PID查询程序路径)
wmic process list:查看所有的进程
wmic process get name,executablepath,processid:查看进程名、路径、pid
wmic process get name,executablepath,processid|findstr pid:在上面的命令上,配合使用find或findstr就可以查到pid对应的路径
- 定位异常进程前,需要在任务管理器中依次单击 查看(V)> 选择列(S)。
分析处理。排查影响CPU使用率过高的进程是否正常,并分类进行处理。
正常使用率过高的分析处理
正常情况下,当客户频繁访问业务,或由于Windows自身服务(更新服务等)都可能会占用较高网络流量和CPU 。针对正常进程导致的CPU使用率过高的情况,请按照如下顺序逐一进行排查。
提示:Windows Server 2008或Windows Server 2012实例建议内存配置在2G或者2G以上。
- 检查后台是否有执行Windows Update的行为。
- 建议在服务器上安装杀毒软件,进行杀毒。如有安装杀毒软件,请检查CPU飙高时,杀毒软件是否在后台执行扫描操作。如果可能,请升级杀毒软件到最新版本,或者删除杀毒软件。
- 检查该ECS内应用程序是否有大量的磁盘访问、网络访问行为或高计算需求。通过尝试增配实例规格的方式,使用更多核数或内存的规格来解决资源瓶颈问题,如升级配置。
- 若自身服务器配置较高,再去升级配置已经没有太大意义。架构方面也并非是服务器配置越高就越好。此时,您需要尝试进行应用分离,同时对相关程序进行优化。示例说明如下。
问题描述:当一个服务器上面同时部署了MySQL、PHP、Web等多种应用,即使配置比较高,也很容易出现资源负载异常。
解决方法:尝试应用分离,通过不同的服务器去承载不同的应用。比如数据库完全通过RDS来承载,减轻服务器本身的资源消耗和服务器内部大量的调用。而程序优化方面,您可以根据自身的配置状况进行调整,比如调整连接数和缓存配置,以及Web和数据库调用时的各项参数等。
异常使用率过高的分析处理
对于CPU异常使用率过高的情况,可能是被恶意病毒、木马入侵导致的。有时三方恶意程序可能会利用操作系统的svchost.exe或者Tcpsvcs.exe来伪装,引起高CPU的占用。您需要手动对异常进程进行查杀。
提示:若您无法判断进程是否为病毒或木马,建议将进程名称在网上进行搜索后确认。另外,建议您进行进程删除操作前,提前创建快照完成备份。
- 使用商业版杀毒软件,或使用微软免费安全工具Microsoft Safety Scanner,在安全模式下进行扫描杀毒,工具链接如下所示。
- 运行Windows Update来安装最新的微软安全补丁。
- 使用MSconfig禁用所有非微软自带服务驱动,检查问题是否再次发生,具体操作请参考如何在Windows系统中执行干净启动。
- 若服务器或站点遭受DDoS攻击或CC攻击等,短期内产生大量的访问需求。您可以登录云安全中心,查看云盾中的防护DDoS攻击是否调整好阈值,并核实是否开启CC防护。如果攻击没有触发到阈值,云盾没有清洗,可以联系售后协助开起清洗。
操作示例。介绍具体排查及解决方法的流程。
CPU使用率较高的可能原因如下。
- 病毒木马入侵。
- 第三方杀毒软件运行。
- 应用程序异常、驱动异常、高I/O使用率或高中断处理的应用程序。
提示:在使用Windows Server 2012的1核1GB规格的实例时,Windows Update服务会自动更新,实例的CPU使用率也会突然升高,这是正常现象。
解决方案
- CPU使用率较高时,检查后台是否正在执行Windows Update的进程。
- 检查杀毒软件在后台是否正在执行扫描操作。可以升级杀毒软件到最新版本,或者删除杀毒软件。
- 单击运行,然后输入MSCONFIG,禁用所有非Microsoft自带服务驱动,然后检查问题是否再次发生。相关参考文档如下。
- 使用商业版杀毒软件或Microsoft安全扫描程序在安全模式下扫描杀毒。关于Microsoft安全扫描程序的参考文档如下。
- 运行Windows Update安装最新Microsoft安全补丁。
- 当ECS实例有大量的磁盘访问、网络访问和高计算需求时,CPU使用率较高是正常现象,可以通过升级实例规格的方式以应对资源不足问题。
- 更多解决方法可参考如下Microsoft文档。
更多信息。介绍排查工具的使用。
以下是关于Windows实例排查工具推荐的相关内容。
任务管理器
- 直观检查应用程序列表,定位占用CPU较高的应用程序,如下是任务管理器页面。
- 在性能页面检查CPU使用率时,右键单击CPU使用率图示,单击 将图形更改为 >逻辑处理器。如下图显示了4个逻辑CPU的使用率。
- 当单个进程的CPU使用率飙升至接近100%时,而其它进程的CPU使用率变化不大,则可能是网络I/O处理造成的。
资源监视器
直观检查CPU使用率,还可以通过句柄和模块搜索对应的进程。
Process Explorer
- Process Explorer是一款Microsoft Sysinternals工具,通过配置正确的Symbols,检查对应应用程序的线程调用的Call Stack,用以定位可能的问题驱动。下载Process Explorer工具链接如下。
- 如下是Process Explorer工具使用页面。
性能监视器 (开始>运行>perfmon)
性能监视器(Performance Monitor)是Microsoft专业收集各个组件性能计数器的工具。对于系统CPU资源消耗,有多个Counter来检查。通过单击 开始>运行>perfmon,打开性能监视器。
一、CPU:
1)查看System%Total Processor Time 性能计数器的计数值。
该计数值用于体现服务器整体的处理利用率,对于多处理器来讲,该数值体现的是所有CPU的平均利用率。如果该数值大于持续大于90% ,表示CPU有可能存在瓶颈。
2)查看每个CPU的Processor%User Time
Processor%User Time是指系统的非核心消耗的CPU时间,如果该值较大,可以考虑通过算法优化来降低该值。如果该服务器是数据库服务器,Processor%User Time值大的原因很可能是数据库的排序或是函数操作消耗了过多的CPU时间,此时可以考虑对数据库进行优化。
3)查看Processor%Processor Time 和 System\Processor Queue Length
查看System\Processor Queue Length 计算器,当该计数器的值大于CPU数量的总数加1时,说明CPU产生了赌塞。但产生赌塞时,Processor%Processor Time的值不一定很大,此时就必须查看CPU赌塞的原因。
4)查看%DPC Time
%DPC Time 是另一个需要关注的内容,该计数值越低越好。在多CPU系统中,如果该值大于50% 并且Processor%Processor Time值非常高,则考虑加一个网卡来提高性能。
二、内存:
1)查看Memory\Available Mbytes指标。
这个计数器是描述系统可用内存的直接指标,在对系统进行操作系统级别的内存分析时,首先通过这个指标建立一个初步的印象,了解性能测试过程中系统是否仍然有足够的内存可用。
如果这个指标的数据比较小,系统可能出现了内存方面的问题。
2)Pages/sec 、 Pages Read/sec 和Page Faults/sec指标
操作系统经常会利用磁盘交换的方式提高系统可用的内存量或内存的使用效率。这三个指标直接反映了操作系统进行磁盘交换的频度。
如果Pages/sec 的计数器持续高于几百,很可能会有内存方面的问题产生,但Pages/sec的值很大不一定表明内存有问题,而可能是运行使用内存映射文件的程序所导致。Page Faults/sec 值表示每秒发生页面失效的次数,页面失效次数越多,说明操作系统向内存读取的次数越多。些时还需要查看Pages Read/sec 的计数值,该计数器的阀值为5,如果计数值超过5,则可以判断内存存在问题。
3)根据Physical Disk计数器的值分析性能瓶颈
Physical Disk 计数器的分析包括对Pages Read/sec和 %Disk Time及Average Disk Queue Length 的分析。如果Pages Read/sec 很低,同时%Disk Time和Average Disk Queue Length 的值很高,则可能有磁盘瓶颈。但是,如果队列长度增加的同时 Page Read/sec 并未降低,则是由于内存不足。
磁盘:
% Disk Time 指所选磁盘驱动器忙于为读或写入请求提供服务所用的时间的百分比。(正常值<10,此值过大表示耗费太多时间来访问磁盘,可考虑增加内存、更换更快的硬盘、优化读写数据的算法。若数值持续超过80 (此时处理器及网络连接并没有饱和),则可能是内存泄漏。)
Avg.Disk Queue Length 指读取和写入请求(为所选磁盘在实例间隔中列队的)的平均数。(正常值<0.5,此值过大表示磁盘IO太慢,要更换更快的硬盘。)
三、磁盘I/O
1)与 Processor/Privileged Time 合并进行分析。
如果在Physical Disk 计算器,只有%Disk Time 值较大,其它值都比较适中,则硬盘可能会是瓶颈。若几个值都比较大,且数值持续超过80% ,内里可能是内存泄漏。
2)根据Disk sec/Transfer 进行分析
一般来说,定义Transfer 数值小于15毫秒为优秀,介于15~20毫秒之间为良好,30~60毫秒之间为可以接受,超过60毫秒则需要考虑更换硬盘或硬盘的RAID方式。(注意:各种不同的RAID其计算方式也不完全相同)