Linux系统之 Steal CPU time解析

简介: 正如之前文章讲过:在 Unix / Linux 体系中,常常使用“用户” CPU 时间(us)、“系统” CPU 时间(sy)、“良好”的 CPU 时间(ni)、“空闲” CPU 时间(id)、“等待”CPU 时间(wa)、“硬件中断” CPU 时间(hi)、“软件中断” CPU 时间(si)以及“被盗” CPU 时间(st)等 8 个不同的指标来评判操作系统的 CPU 资源使用情况。

    正如之前文章讲过:在 Unix / Linux 体系中,常常使用“用户” CPU 时间(us)、“系统” CPU 时间(sy)、“良好”的 CPU 时间(ni)、“空闲” CPU 时间(id)、“等待”CPU 时间(wa)、“硬件中断” CPU 时间(hi)、“软件中断” CPU 时间(si)以及“被盗” CPU 时间(st)等 8 个不同的指标来评判操作系统的 CPU 资源使用情况。


    在之前的文章中,我们解析过 User 跟 Wait CPU Time ,具体可参考链接:Linux系统之User CPU time解析 以及 Linux系统之Wait CPU time解析在实际的业务场景中,在大家的脑海中可能较为熟悉的是 %idle (空闲 百分比) 和 %wait (I/O 等待 百分比)。 如果 %id 很低,那么说明 CPU 的工作负载很大并且没有多少计算负载能力剩余。 如果 %wa 很高,则说明 CPU 处于等待计算的状态,但是正在等待I/O活动的完成(类似 从数据库中获取存储在 磁盘上 的一行数据)。然而,从某种特定的意义上来讲,%st(percent steal time) 是CPU展示的最后一个性能指标。在本文中,笔者将重点解析另一种 CPU 指标:Steal  CPU time 。


何为 “Steal” CPU时间?

   “Steal 时间”(也称为“偷窃”时间)仅在云环境(如AWS)或 VMWare 环境中相关,在云环境中,多个虚拟机将在一个基础物理主机上运行。在这种情况下,CPU 资源将在多个虚拟机之间共享。虚拟机管理程序是一项将在虚拟机之间分配基础物理主机的 CPU 资源和其他资源的技术。

   “Steal 时间”(或“被盗时间”)是仅与虚拟化环境相关。它表示真正的 CPU 对当前虚拟机不可用的时间-虚拟机管理程序从该VM“偷走”了该 CPU(用于运行另一个VM,或用于其自身需求)。如果特定虚拟机上的“Steal 时间”很高,则表明该虚拟机在过载或者负荷较大的物理主机上运行。

查找“Steal” CPU 时间?

   基于实际的业务场景以及相关经验,可以从以下来源找到窃取 CPU 时间:

   1、使用基于网络的根本原因分析工具(如 yCrash)来报告“被盗”的 CPU 时间。如果“被盗”的 CPU 时间超出阈值,该工具便能够生成警报。

   2、Unix / Linux 命令行工具“ top ”的 “ steal ”字段中也报告了“被盗”的 CPU 时间,具体如下图所示:


解决“Steal” CPU 时间过长的问题?

   通常,我们可以基于以下场景进行,具体如下所示:

    1、如果我们基于云平台环境,可以尝试升级到大容量计算实例。(举个简单示例:如果我们在具有“ m4.large”实例的 AWS /阿里云平台中运行,则可以升级到“ m4.xlarge”实例)。

    2、如果有可能的话,建议在实际的业务场景中考虑在物理主机上运行较少数量的虚拟机实例,以使得系统能够正常运转。

    3、基于实际的需求,可尝试考虑在遭受高 “Steal” 时间的特定虚拟机中运行较少数量的进程。

    4、可以尝试使用 Sar 之类的相关辅助工具定位并结合其他措施优化应用程序性能,以使应用程序消耗更少的 CPU。

    5、从资源配置角度入手,也许针对每个虚拟机的 CPU 份额配置的不够合理,使得其分配得过低,从而影响性能。此种场景下,建议尝试增加份额并对其进行验证,以满足实际的业务需求。

    由于所述内容较为简单,在实际的业务场景中几乎很少会遇到此类情况,但基于技术角度,针对每一个细节的全方位监测、掌握,对于我们而言,更有助于分析其他类似的资源异常问题,从而提升劳动力。基于 Steal” CPU Time 解析,本文到此为止,大家有任何问题,可以随时留言、沟通。

相关文章
|
24天前
|
弹性计算 定位技术 数据中心
阿里云服务器配置选择方法:付费类型、地域及CPU内存配置全解析
阿里云服务器怎么选?2025最新指南:就近选择地域,降低延迟;长期使用选包年包月,短期灵活选按量付费;企业选2核4G5M仅199元/年,个人选2核2G3M低至99元/年,高性价比爆款推荐,轻松上云。
112 11
|
7月前
|
机器学习/深度学习 文字识别 监控
安全监控系统:技术架构与应用解析
该系统采用模块化设计,集成了行为识别、视频监控、人脸识别、危险区域检测、异常事件检测、日志追溯及消息推送等功能,并可选配OCR识别模块。基于深度学习与开源技术栈(如TensorFlow、OpenCV),系统具备高精度、低延迟特点,支持实时分析儿童行为、监测危险区域、识别异常事件,并将结果推送给教师或家长。同时兼容主流硬件,支持本地化推理与分布式处理,确保可靠性与扩展性,为幼儿园安全管理提供全面解决方案。
339 3
|
3月前
|
存储 弹性计算 缓存
阿里云ECS通用算力型u2i服务器性能测评、CPU型号及配置参数解析
阿里云ECS通用算力型u2i实例,搭载Intel® Xeon® Platinum处理器,支持第五、六代至强平台,适用于Web、Java、中小型数据库等场景。提供1:1至1:8多种vCPU与内存配比,最大32vCPU,标配ESSD Entry云盘,网络性能随规格提升增强,支持IPv4/IPv6,适用于企业级应用、数据分析、缓存集群等业务,兼顾性能与成本效益。
|
3月前
|
弹性计算 前端开发 NoSQL
2025最新阿里云服务器配置选择攻略:CPU、内存、带宽与系统盘全解析
本文详解2025年阿里云服务器ECS配置选择策略,涵盖CPU、内存、带宽与系统盘推荐,助你根据业务需求精准选型,提升性能与性价比。
|
8月前
|
运维 Linux 虚拟化
Linux 查看 CPU 使用情况
在 Linux 系统中,查看 CPU 使用情况是性能分析和故障排查的重要环节。查看 CPU 使用情况,使用 top 命令或者 htop 命令来查看。
|
4月前
|
存储 弹性计算 固态存储
阿里云服务器配置费用整理,支持一万人CPU内存、公网带宽和存储IO性能全解析
要支撑1万人在线流量,需选择阿里云企业级ECS服务器,如通用型g系列、高主频型hf系列或通用算力型u1实例,配置如16核64G及以上,搭配高带宽与SSD/ESSD云盘,费用约数千元每月。
396 0
|
5月前
|
网络协议 安全 区块链
DNS+:互联网的下一个十年,为什么域名系统正在重新定义数字生态? ——解读《“DNS+”发展白皮书(2023)》
DNS+标志着域名系统从基础寻址工具向融合技术、业态与治理的数字生态中枢转变。通过与IPv6、AI和区块链结合,DNS实现了智能调度、加密传输等新功能,支持工业互联网、Web3及万物互联场景。当前,中国IPv6用户达7.6亿,全球DNSSEC支持率三年增长80%,展现了其快速发展态势。然而,DNS+仍面临安全威胁、技术普惠瓶颈及生态协同挑战。未来,需推动零信任DNS模型、加强威胁情报共享,并加速标准制定,以筑牢数字时代网络根基,实现更安全、高效的数字生态建设。
405 3
|
8月前
|
传感器 人工智能 监控
反向寻车系统怎么做?基本原理与系统组成解析
本文通过反向寻车系统的核心组成部分与技术分析,阐述反向寻车系统的工作原理,适用于适用于商场停车场、医院停车场及火车站停车场等。如需获取智慧停车场反向寻车技术方案前往文章最下方获取,如有项目合作及技术交流欢迎私信作者。
578 2
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术如何重塑客服系统?解析合力亿捷AI智能客服系统实践案例
本文探讨了人工智能技术在客服系统中的应用,涵盖技术架构、关键技术和优化策略。通过感知层、认知层、决策层和执行层的协同工作,结合自然语言处理、知识库构建和多模态交互技术,合力亿捷客服系统实现了智能化服务。文章还提出了用户体验优化、服务质量提升和系统性能改进的方法,并展望了未来发展方向,强调其在客户服务领域的核心价值与潜力。
465 6
|
8月前
|
Ubuntu Linux 应用服务中间件
Linux使用cpulimit对CPU使用率进行限制
cpulimit是一款简单易用的CPU使用率限制工具,支持对特定程序或整个CPU使用率进行限制。可通过源安装(如`yum`或`apt-get`)或编译安装获取。使用时,可针对程序名、进程号或绝对路径设置CPU占用上限(如`cpulimit -e xmrig -l 60 -b`)。ROOT用户可限制所有进程,普通用户仅限于权限范围内进程。注意,CPU百分比基于实际核心数(单核100%,双核200%,依此类推)。
634 7