【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 4GiB,适用于网站搭建
简介: 2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。

2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。

引领:夯实AI时代普惠算力基础,弹性计算全新一代企业级实例重磅亮相

阿里云智能集团弹性计算高级产品专家姬少晨作为开场嘉宾,系统性地发布了阿里云新一代实例矩阵,全面展现算力进化的清晰路径。姬少晨认为:AI并非通用计算的替代品,而是其超级加速器——大模型训练80%时间消耗在CPU主导的特征工程与分布式协调,电商推荐引入多模态后对通用算力需求激增315%。这印证了AI时代通用计算需求持续提升的行业趋势。

图:阿里云智能集团弹性计算高级产品专家 姬少晨

性能跃升,成本下行:阿里云第九代企业级实例再突破

阿里云弹性计算历经十五年技术深耕,到如今第九代实例全面升级,为AI时代提供了更优算力基座。

ECS g9i:基于英特尔® 至强® 6 处理器,算力性能提升20%,价格下降5%,实现"性能提升+价格下降"双重突破。支持AMX加速器,新增支持fp16指令加速,AI数据预处理性能提升显著;标配TDX机密虚拟机,提供虚机粒度硬件隔离;创新VISST特性,可对指定核心进行提频设置,满足离在线混布场景需求。是阿里云为企业客户打造的一款“更强劲、更安全、更划算”的企业算力底座。值得一提的是,ECS g9i自商业化开启后,上市仅100天,就有超10000+用户选择。

姬少晨还针对ECS g9i在不同行业中的表现做了详细的介绍:

  • 小鹏汽车每天需处理PB级海量车端数据,预处理环节面临资源弹性扩展难、成本控制等压力;借助ECS g9i的硬件性能升级,小鹏实现算力跃升,支撑7x24小时不间断数据处理,为业务稳定运行筑牢根基。
  • 嘎嘎射击在高并发竞技场景中,面临算力瓶颈、稳定性风险及成本浪费等挑战;采用ECS g9i后,借助第九代Intel处理器强劲性能,单核算力提升20%;搭配智能调度实现跨区负载均衡,有效控制团战延迟,提升游戏运行稳定性。
  • 汇量科技在全球广告业务爆发增长下,遭遇成本攀升与系统性能瓶颈的双重压力;依托ECS g9i,在同等成本投入下,端到端业务性能提升35.68%,助力构建更具竞争力的技术中台,强化业务竞争力。
  • 海尔三翼鸟面对高速增长的IoT设备,需解决智能交互与快速响应的难题;采用ECS g9i后,相比上代产品,AIoT平台效率提升40%+,既优化用户体验,又直接降低算力成本,实现“体验升级+成本优化”的双重目标。

ECS g9ae:搭载AMD Turin处理器,作为国内首款采用物理核设计的通用计算实例,g9ae关闭超线程,每个物理核心独享L3 cache和内存通道,单核算力释放最大化。整型算力提升67%,浮点算力提升76%,per core内存带宽提升33%,2*200Gbps网络,整机性能提升42%。某头部社交客户通过混部+开关核策略,实现推荐系统端到端性价比提升。是面向大数据、搜推场景打造的“算力旗舰型”产品。

通用算力型u2系列:中小企业普惠新选择

除了面向高算力需求的企业级实例外,弹性计算还创新推出通用算力型u2系列,支持Intel与AMD双平台,统一x86指令集,提供更灵活的算力选择。相比上代u1,算力提升最高40%,价格下降10%,规格支持1:1/1:2/1:4/1:8等配置,最大支持64vCPU。支持Entry云盘、弹性临时盘及网络能力翻倍,综合性价比提升30%+,有效解决中小企业“使用成本高,产品选型难度高,多规格管理复杂度高”的痛点。

全面安全防护:算力普惠的安全基石

阿里云ECS还构建了五维安全防护体系,实现从数据存储、传输到运行全生命周期保护。包括在数据安全维度支持Intel TDX、AMD SEV、vTPM等硬件级安全;VPC加密等传输安全;镜像加密等存储安全之外,还囊括了应用安全维度上的AK密钥安全、云安全中心等;身份与访问控制维度提供RAM角色、MFA多因数认证;网络安全方面,访问隔离,安全组能能力同样为用户的用云全流程保驾护航。

姬少晨最后讲到:“阿里云持续优化安全体验,将关键安全能力纳入免费使用范畴,让中小企业也能轻松部署安全云环境。目前,阿里云已覆盖全球29个地域、91个可用区,服务超500万客户。从九代实例到安全防护,阿里云正以‘普惠算力’推动算力应用从高端走向普及,真正实现‘智联未来’的愿景。”

落地:从稳定上云到性能跃迁,ECS g9i推动AIoT平台提效40%+

海尔三翼鸟作为ECS g9i的标杆客户,其AIoT平台云服务负责人刘建锋也莅临现场分享了其与阿里云的深度合作历程,以及新一代ECS g9i实例在支撑其大规模IoT平台中的关键价值。

图:海尔三翼鸟云服务负责人 刘建锋

亿级用户规模下的平台挑战

海尔三翼鸟作为智慧家庭场景品牌,当前已服务近1亿家庭用户,月活超1300万,平台连接设备达5000万+。其核心业务涵盖阳台、厨房、全屋空气等场景定制,需支撑设备网关、用户网关、语音网关等千万级在线连接。然而,业务高速增长也带来三大技术瓶颈:

  • 高并发压力:单设备网关需承载10万+长连接,主机长期高负载运行,算力成本与连接均摊成本亟待优化;
  • 稳定性风险:网关主机故障或性能波动会导致大面积用户掉线,尤其安防设备(如烟雾报警器)的延迟提醒可能引发安全事故;
  • 低延迟需求:毫秒级响应保障用户体验,如空调、烤箱等设备的高防干烧提醒需实时触达。

双赢:提效40%+与成本反降

刘建锋介绍到,为解决上述挑战,三翼鸟全面采用阿里云ECS g9i实例,其技术特性与业务场景深度适配,基于ECS g9i的升级,三翼鸟AIoT平台实现综合收益突破。

  • 连接能力跃升:同等配置下,设备网关侧连接设备数量提升40%,单台服务器支撑设备量从10万+增至14万+;
  • 稳定性与成本优化:高并发场景下平台故障率下降90%,用户设备平均掉线频率降低50%,得益于CIPU带来的虚拟化开销降低和资源利用率提升,单位算力成本显著下降,实现性能提升与总体成本优化的双赢;
  • 用户体验升级:设备控制响应速度提升40%,语音指令端到端响应延迟从平均200ms降至120ms,用户月活留存率提升15%。

刘建锋表示,目前三翼鸟90%+业务已迁移至阿里云,后续将持续推进ECS g9i覆盖,进一步释放AIoT平台效能。

提效:从成本优化到智能运维,开启高效用云新时代

阿里云智能集团弹性计算产品专家苏忠煌重磅推出ECS计算资源包与弹性保障产品的全新能力,旨在解决用户对按量资源成本与弹性资源确定性的双重诉求。

图:阿里云智能集团弹性计算产品专家 苏忠煌

三重诉求驱动弹性计算售卖能力演进

苏忠煌介绍到:阿里云弹性计算产品线持续演进,从包年包月、按量付费、抢占式实例三大基础形态,升级为覆盖确定性、灵活性、经济性的全场景解决方案。针对不同业务特性,创新推出节省计划与弹性保障能力,精准满足"三重诉求"。

节省计划实现精准降本

ECS 节省计划(SP)依托用户的长期稳定用量,提供接近包年包月的高性价比折扣权益。产品涵盖通用型和计算型两种类型,既可满足追求更低折扣的经济性需求,也能满足灵活易用的管理诉求。

在持续丰富产品权益的同时,我们围绕客户的 SP 使用的全生命周期,配备价格计算器以及覆盖率、使用率双指标视图,帮助客户精细化管理资源使用效率,实现降本增效的目标。

弹性保障费用全面下调,功能全面升级

弹性保障费率从40%大幅下调至10%,显著降低弹性业务场景成本。同时,支持小时级周期预留(最低连续4小时),支持按天、按周、按月重复配置,最大支持10条规则,满足精细化弹性需求。

新增支持OpenAPI、Terraform接入,提供分钟级容量指标实时监测;支持跨账号共享与标签匹配,满足多业务线分账需求;提供续费、变配等灵活调整能力,实现资源按需使用。弹性保障助力某头部游戏客户核心业务总成本下降超50%,解决游戏业务日间、工作日及节假日潮汐用量特征问题,通过峰值预留、跨账号共享与标签匹配,实现业务连续性与成本最优的双重保障。

图:阿里云智能集团弹性计算高级产品专家 张强

ECS控制台体验的挑战

阿里云智能集团弹性集团高级产品专家张强在本轮分享中提到:用户在ECS全生命周期管理中面临多重挑战:购买阶段规格选择困难,资源操作步骤繁琐,系统运维命令复杂,故障排查耗时费力,导致运维效率低下、学习成本高昂。在此需求下,计算AI助手应需而生。

架构创新:从知识问答到智能运维

在云计算时代,ECS管理正从“人找系统”向“系统找人”转变。计算AI助手基于通义千问大模型构建的智能体助手,具备意图理解、任务规划、工具调用与持续反馈能力,实现了从被动响应到主动执行的跃迁。该架构突破了传统问答式AI的局限,将计算AI助手从“知识问答”升级为能操作、会诊断、甚至能自主优化系统的“智能协作者”

六大AI场景:开启ECS智能运维新时代

计算AI助手通过六大核心场景,将ECS管理体验从"复杂繁琐"转变为"简单高效",覆盖了从资源选型到系统优化的全生命周期。这些场景不仅解决了传统运维中的关键痛点,更通过AI驱动的主动服务,将运维人员从重复性工作中解放出来,专注于更具价值的业务创新。

  • 知识问答:基于阿里云ECS全量知识库,提供精准、实时的智能问答服务,让运维知识触手可及。
  • ECS选型:支持基于业务场景的自然语言输入,结合实时库存与价格信息,智能推荐最优规格组合,实现高性价比的秒级决策。
  • 资源操作:通过自然语言实现资源的创建、查询、修改等全流程操作,告别繁琐的页面跳转与命令输入。
  • 诊断修复:针对130+种常见异常场景,自动定位问题根源并提供一键修复方案,将故障处理时间从小时级缩短至分钟级。
  • 监控分析:智能解读监控数据,自动识别异常趋势,提供可视化分析报告与优化建议。
  • 系统运维:覆盖系统配置优化、安全加固、性能调优等全维度运维任务,实现从问题发现到系统优化的智能化闭环流程。

张强表示:通过这六大场景,计算AI助手将ECS管理的复杂度从"多步操作"简化为"一句话指令",真正实现"让系统更智能,运维更简单"的愿景,开启云上智能运维的新时代。

普惠:轻量应用服务器全新升级,助力中小企业与开发者高效创新

面向中小企业及开发者的云服务器演进实践

阿里云智能集团弹性计算产品专家王存哲在本次论坛中分享了对中小企业和开发者使用云服务器的需求洞察,他们普遍聚焦于网站搭建、开发测试、Web应用和游戏自建服等轻量级场景,具有“小算力、低流量、高性价比、易上手”的共性需求。

图:阿里云智能集团弹性计算产品专家 王存哲

轻量应用服务器Simple Application Server是专为中小企业及开发者设计的云服务器产品,预装宝塔、Dify等热门应用软件,以预付费的方式售卖计算、存储、网络套餐,隐藏VPC、弹性网卡等暂时不需要的特性。2025年阿里云带来全新产品序列,通用型低至每月28元,最小规格2c0.5g起步,适合网站、开发测试等场景,是多数客户共同选择的经典产品;CPU优化型低至每月200元,CPU算力独享、最大16vCPU,适合游戏服务器、企业应用与数据库等场景,是企业客户的首选;除此之外,包含多公网IP型、国际型、容量型在内的5款新品还标配200Mbps峰值公网带宽。

选择轻量应用服务器,为中小企业及开发者创新提速!

融合:HPC上云与云盒下沉,打造全域算力协同新格局

阿里云智能集团弹性计算高级产品解决方案架构师倪炜介绍了阿里云弹性高性能计算(E-HPC)解决方案,面向科研与工程领域的高性能计算需求,阿里云提供全栈式、可伸缩、易管理的云上HPC服务。

图:阿里云智能集团弹性计算高级解决方案架构师 倪炜

该方案以自研CIPU为核心,构建底层算力基础设施,实现虚拟化性能零损耗,并通过400G eRDMA网络技术大幅提升通信效率,支撑大规模并行计算场景。

阿里云高性能计算解决方案全景:云化弹性与性能跃升

同时阿里云构建"物理资源+CIPU"的云化计算资源池,通过飞天统一调度实现计算、存储、网络虚拟化。CIPU提供GPU/CPU/高性能计算实例,连接计算与存储资源,实现IO与存储性能优化。

eRDMA技术将传统昂贵的RDMA网络普惠化,实现云上一键部署。从2018年第一代HPC实例至今,计算性能提升5倍(2.1TFLOPS-->10.58Tflops)、网络性能提升16倍(25G-->400G eRDMA),单Tflops成本下降75%,实现"性能提升+成本下降"双重突破。

芯片仿真上云:弹性与安全并重

芯片领域面临多工种协同、多地域办公及研发高峰弹性需求(10-20倍于日常)。阿里云通过无影云电脑提供安全可信登录环境,前端算力集群采用通用计算规格,后端采用2TB-16TB大内存实例,满足不同仿真需求。混合云方案实现云上云下统一调度,保障研发效率与数据安全。

工业仿真上云:灵活接入与差异化弹性

工业仿真典型混合云方案,支持专线/VPN灵活接入。针对不同产品需求,通过不同队列实现差异化弹性伸缩——根据产品面市要求配置不同的产品和弹性策略,从而在保障TTM的同时,获得最佳ROI。新增队列业务告警,帮助客户精准定位业务瓶颈,优化资源利用。

生命科学上云:全云环境与白屏化体验

生命科学数据主要存储于云端,阿里云提供全云环境+E-HPC热数据缓存层,提升存储IO性能。提供E-HPC-INSTANT服务增强弹性,降低成本;开发白屏操作界面,使非IT专家的科研人员也能便捷使用。支持alphafold等主流生信工具,实现"一键构建生信场景"。

量化金融上云:数据通道与弹性保障

量化金融客户使用传统调度器进行回测,需构建高效数据通道(专线/闪电立方)将云下数据上传至OSS。E-HPC缓存加速将数据拉入作业集群,满足当日弹性达数十万核节点的苛刻需求,实现"业务全场景覆盖,一键构建量化分析"。

图:阿里云智能集团弹性计算产品经理 邹佳航

阿里云智能集团弹性计算产品经理邹佳航,在本场论坛中为大家解析了阿里云弹性高性能计算(E-HPC)的创新演进,他提到阿里云E-HPC通过"物理资源+CIPU"构建云化计算资源池,实现计算、存储、网络的全面虚拟化。基于飞天统一调度,E-HPC提供极致性能与弹性能力的完美平衡,突破传统HPC集群的性能瓶颈。CIPU 2.0架构实现无虚拟化损耗,配合自研eRDMA网络,提供低延时(8微秒)、高带宽(400G)的节点间通信,使MPI作业性能较传统TCP协议提升80%以上。

优化实例:为HPC场景定制的高性能计算

阿里云持续推出为HPC应用专门设计的优化实例,显著提升性能并降低TCO。HPC9A基于AMD第五代Turin-C CPU,全核睿频达4.5GHz,单核睿频5.0GHz,内存容量与带宽针对性提升,在芯片设计、工业仿真等场景较八代实例性能提升30%以上。hpc8i/hpc8ae已针对CAE场景完成多项性能优化,服务于多家工业仿真领先企业。

产品演进:从集群到计算服务的云原生转型

E-HPC Next提供传统高性能计算集群服务,支持可视化节点、管理节点、计算资源与文件存储的全链路管理,满足紧密耦合型HPC工作负载需求。E-HPC Instant作为云原生智能批处理服务,实现Serverless化,无需创建和管理基础设施,按作业维度提交算力需求,智能分配计算资源,按作业收费,大幅简化用户使用流程。

全球化智能调度:弹性与成本的极致平衡

在全球化智能调度方面,E-HPC通过全局智能调度,支持跨地域、多类型资源组合,实现"无限"算力弹性。与阿里云OSS、数据传输服务、EMR、PAI等无缝集成,为松耦合工作负载提供最佳成本效益。通过作业感知自动伸缩与拓扑感知调度,确保资源利用效率最大化,助力用户节省计算等待时间,加速研发创新活动,真正实现"性能提升+成本下降"的双重突破。

图:阿里云智能集团弹性计算高级产品专家 曾银飞

阿里云智能集团弹性计算高级产品专家曾银飞指出,其云盒产品通过公共云技术栈创新实现了云上与本地部署的融合,为企业的IT设施提供了混合部署新范式Gartner调研数据显示,全球中型企业的IT负载分布呈现云环境与本地部署6:4的典型比例,印证了市场对云服务弹性能力与本地可控性平衡的深层需求。该方案通过产品架构创新,使企业既能获得公共云的技术和服务优势,又满足数据主权、低网络延迟及合规性等本地化要求,体现了混合部署场景下的技术演进方向。

阿里云云盒:基于公共云飞天架构本地化部署的云服务

阿里云云盒是将公共云能力延伸至客户本地数据中心的解决方案。它以标准42U机柜形式交付,在客户指定机房部署后,可在阿里云控制台中作为一个专属可用区进行管理,提供与公共云一致的openAPI、产品和服务体验,满足数据本地化、低时延交互和安全合规等需求,广泛应用于医疗、制造等行业。

云产品生态:云盒内可按需使用云上产品生态

云盒支持在本地按需使用阿里云公共云的部分核心产品,如ECS、容器服务、中间件及无影等,这些能力通过统一的公共云控制台进行管理。产品能力与公共云同源,版本迭代周期一致,企业可在本地复用云上技术栈,降低运维复杂度。

云边协同:云盒内的本地负载和云端算力无缝链接

云盒支持通过VPC与公共云建立内网连接,实现本地与云端的网络互通。企业可将云上应用平台延伸至本地,在数据不迁移的前提下,利用云端构建的数据库、容器等能力在本地运行关键业务,满足交通出行、智能制造等场景对低时延和数据本地化的双重需求。

典型场景:用公共云技术栈服务企业本地化部署的基础设施
  • 医疗健康:构建基于云盒的本地化云HIS系统,满足医院对病例数据本地存储与高可用的需求,支持多院区容灾部署。
  • 交通出行:为自动驾驶等场景提供本地算力,实现“云就数据”的上云新路径,避免海量数据上传至云端。
  • 制造业:针对分布广泛的工厂IT设施,通过云盒实现集中统一管理,降低运维复杂度与人力成本。
  • 广电传媒/新零售:应对业务波峰波谷,将核心业务本地部署,弹性业务上云,实现资源灵活调度。

面向AI场景,提供企业本地化部署的算力底座

曾银飞指出,未来12个月,云盒将聚焦打造以容器化与异构算力为核心的本地化算力底座。计划扩展云盒集群至1000台规模,推出阿里云第九代计算实例,并支持最高10万IOPS的高性能云盘。针对AI场景,将进一步提升云盒与本地设备间的互联带宽,强化本地算力与企业本地数据的交互能力。

筑基:软硬协同与智能治理,铸就AI原生算力底座

阿里云智能集团弹性计算资深软件系统架构师吴天议在本场分论坛中带来了弹性计算新品深度技术解读,他回顾了弹性计算从2012年以虚拟机为核心的计算、网络、存储虚拟化,发展到2024年面向AI原生时代的“全栈融合算力”与脉冲式弹性调度的技术演进路径。平台经历了从虚拟化、去IOE、容器化到AI原生的持续迭代,逐步实现资源池化、高可用、弹性伸缩、统一调度与智能协同的能力。

图:阿里云智能集团弹性计算资深软件系统架构师 吴天议

AI原生时代的通用计算

AI原生时代要求计算与数据的深度协同,覆盖从数据预处理、特征工程、训练到轻量级推理的全生命周期。通用计算平台已不再仅是算力提供者,而是具备高性能多核架构、低虚拟化开销、多元CPU架构支持(通用+异构)的AI协同计算引擎。在第九代产品中,Intel CPU通过AMX指令集加速上层业务,显著提升向量化数据处理效率,为轻量AI推理提供支持。

一云多芯:弹性计算9代产品精准适配

阿里云弹性计算9代产品实现"一云多芯",针对不同应用场景提供最优算力:

  • g9i:定位为交互式在线应用(如Web游戏、电商交易),依托Intel CPU的高主频、大缓存和共享内存优势,提供低延迟、高响应性能;
  • g9a:适用于HPC、异构计算头节点等高性能场景,通过关核设计提升单核缓存(2MB)和内存带宽,优化性能稳定性;
  • g9ae:面向大数据、搜索推荐、视频串行处理等重载离线任务,采用关核技术提升缓存与IO能力,实现性能与成本效率双向提升。

神龙:软硬结合构建"零损耗"虚拟化

神龙计算平台通过软硬协同实现接近“零损耗”的虚拟化体验。通过将虚拟化功能下沉至CIPU,仅在Host CPU保留基础的内存、CPU、设备与QS控制,大幅降低虚拟化对客户业务的干扰。同时支持快速虚拟机启停、热迁移与在线修复,提升系统稳定性与升级连续性,实现“轻量化、高弹性、稳可靠”的虚拟化架构。

CIPU 2.0:IO能力全面提升的核心引擎

CIPU 2.0作为核心创新,实现400G网络支持,采用EAC芯片替代原有IPJ方案,显著降低功耗并提升性能。通过双端口2×200G设计,提升网络可靠性与吞吐能力。同时优化多核并行处理(如flow director、RSS),并支持EED弹性缓存盘、CPFS分布式文件系统对接。在g9ae产品中,微网络与存储带宽整体提升60%,显著增强IO能力。

通用+加速计算协同构建智能搜索推荐系统

在电商搜索推荐场景,阿里云构建“通用+加速计算”协同体系:通用计算(如g9ae)负责数据清洗、特征工程、任务编排与轻量推理;加速计算(GPU)负责大规模模型训练与高并发推理。通过CIPU RDMA连接CPFS分布式文件系统,实现训练数据高效共享。系统在双十一等高峰场景下实现毫秒级响应,CPU利用率提升至60%以上,支撑每日数百TB级数据处理,满足AI业务全链路需求。

吴天议表示:云计算正从"虚拟机时代"迈向"AI原生时代",阿里云通过持续演进的超级计算机架构,为AI应用提供全栈融合型算力底座,实现计算、数据与AI的有机协同。

图:阿里云智能集团服务器研发高级专家 杨磊

阿里云智能集团服务器研发高级专家杨磊在本场论坛分享的主题是《阿里云磐久服务器硬件故障率智能治理创新实践》,杨磊介绍到:阿里云磐久自研服务器作为云计算基础设施稳定性的重要基石之一,在AI需求爆发与芯片迭代加速的双重挑战下,传统的开发和质量管理模式已经无法满足交付要求,磐久服务器以客户可用性为中心,全面自研,重构开发流程、交付和质量治理模式,实现硬件质量与业务场景的深度匹配,为云上业务提供坚实底座。

云服务器硬件质量关键挑战应对策略

面对客户对硬件故障率日益严苛的要求,尤其是AI训练场景下单卡故障带来的中断成本远超硬件本身价值的挑战,阿里云从四个方面进行系统性破局:一是重构质量标准、开发流程与交付模式;二是推进全域自研与六个维度的统一归一;三是构建全场景测试体系;四是建立大数据驱动的智能质量治理系统。

应对一:构建“芯片、整机、云同步发布” 的云服务器开发流程与交付模式

阿里云基于不同的业务场景重构质量标准,采用“芯片、整机、云实例同步开发”模式,使新平台、新芯片、新物料在开发早期就与云环境同步验证和灰度。通过尽早暴露问题,在正式发布前最大限度清除隐患,实现“发布即稳定”。同时,交付模式从传统ODM向阿里主导的EDM(Ecosystem Design Manufacture)演进,支持快速复制与产能互补,并通过智能灰度控制新平台的爆炸半径。

应对二:全域自研归一,自主可控

自2017年起,阿里云逐步从架构、硬件、软件、测试、部件和制造六个方面推进全域自研与自主可控,从源头减少质量变量,一次性把事情作对。

应对三:全场景持续迭代测试系统

阿里云构建了从芯片、板卡到整机,再到百万级客户应用的全场景测试系统。同时,利用双11大促场景等超大规模压力测试,充分暴露潜在硬件问题,真正做到“硬件问题无处藏身”。

应对四:构建“原子故障特征颗粒度”的硬件故障率智能治理系统,大数据驱动精准快速改进

针对阿里云数百万存量服务器的“每个部件的每一个原子故障特征”,都要做到24小时实时:监控、诊断、按照异常算法分析和预警,天量的数据处理已经超出人类能力极限,阿里云创新性地构建了“AI+大数据驱动”的预测性质量管理模式,硬件故障监控颗粒度从“部件级”下钻到部件的每个“原子故障特征级”。通过沧海平台对每个部件的每种失效模式提取故障特征并编码,实现独立对每个故障特征实时监控。即使整体质量数据平稳,也能及时发现潜在早期变异,并依托啄木鸟智能修复平台自动化修复。

优秀实践:精准治理创造显著价值

阿里云磐久服务器的质量管理已迈入先进的以“AI+大数据为支撑”的预测性质量管理模式,引领行业标准,借助这套硬件故障率治理系统,与大量业界主流厂商深度协作,大到CPU/GPU、小到陶瓷电容,挖掘深层次质量问题,精益求精,实现双赢。在架构复杂的AI服务器场景中,通过故障率智能治理系统的应用,一个8万卡集群客户可感知的服务器硬件故障中断率降低了63%,显著提升了训练任务的连续性,并有效降低训练成本。

图:阿里云智能集团服务器研发高级硬件技术专家 蔡恒

阿里云智能集团服务器研发高级硬件技术专家蔡恒分享了《磐久服务器硬件平台安全创新实践》,他提到,服务器硬件系统面临日益严峻的安全挑战,包括固件篡改、芯片固件漏洞利用、供应链攻击以及内部运维风险。传统TCM/TPM作为硬件可信根,存在不支持主动度量、缺乏主动防御机制等局限,难以满足数据中心更高的安全需求。

服务器硬件平台安全最佳实践

蔡恒介绍到,阿里云创新提出 Platform Root of Trust (PRoT) 安全架构,构建分层安全与纵深防御体系。PRoT 应具备五大核心能力:

  1. 自身安全可信,采用最小化 TCB(Trusted Computing Base)设计;
  2. 支持平台固件的主动度量与校验,并具备恢复能力;
  3. 提供平台关键固件的主动防御能力;
  4. 支持平台可信信息的动态可信度量与上报;
  5. 保留传统 TCM/TPM 能力,为平台提供可信服务。

阿里云Platform RoT解决方案

阿里云自研 PRoT810 安全芯片,采用玄铁内核与自研关键 IP,具备芯片级安全能力。PRoT810 作为服务器平台可信根,实现了“上电前主动度量、运行时主动防御、动态可信度量与上报”的完整安全防护机制。

上电前主动度量:PRoT810 先于 BMC 和 CPU 启动,在系统上电前对 BMC Flash 和 BIOS Flash 内容进行度量与校验,确保平台固件处于预期的 Golden 状态。通过安全模块私有可信存储区存放 Golden Image,避免依赖主板硬件系统的 Flash 存储设计。

运行时主动防御和动态度量:PRoT810 支持 SPI、SMBus 等接口的实时过滤功能,防止非授权写操作。同时,作为平台升级的可信根,负责固件升级过程中的重新度量与校验。定时对服务器各组件执行可信证明,收集其度量信息,实现平台的动态可信监控。

可信管理和可信服务集成:PRoT810对接阿里云可信管理平台,仅接受合法签名且符合预期策略的升级请求,从技术上杜绝非预期的平台运维行为。PRoT810集成了传统TPM能力,提供可信服务,支持云零信任安全架构。CIPU通过独立接口与安全协议对接PRoT810,获取平台可信度量信息,统一上报至阿里云可信管理平台,实现闭环安全管理。

蔡恒表示:阿里云PRoT解决方案已在Intel、AMD等主流CPU架构实现产品化,支持ARM和RISC-V架构。通过构建数据中心服务器硬件级纵深防御体系,实现平台固件完整性校验、硬固件实时防护、可信度量上报和安全运维,为云原生和大模型训练场景提供硬件级安全底座,助力阿里云磐久服务器打造稳定、安全、性能、成本全方位优势的基础设施。

相关文章
|
1天前
|
云安全 数据采集 人工智能
古茗联名引爆全网,阿里云三层防护助力对抗黑产
阿里云三层校验+风险识别,为古茗每一杯奶茶保驾护航!
古茗联名引爆全网,阿里云三层防护助力对抗黑产
|
5天前
|
人工智能 中间件 API
AutoGen for .NET - 架构学习指南
《AutoGen for .NET 架构学习指南》系统解析微软多智能体框架,涵盖新旧双架构、核心设计、技术栈与实战路径,助你从入门到精通,构建分布式AI协同系统。
300 142
|
5天前
|
Kubernetes 算法 Go
Kubeflow-Katib-架构学习指南
本指南带你深入 Kubeflow 核心组件 Katib,一个 Kubernetes 原生的自动化机器学习系统。从架构解析、代码结构到技能清单与学习路径,助你由浅入深掌握超参数调优与神经架构搜索,实现从使用到贡献的进阶之旅。
279 139
|
2天前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
297 0
|
2天前
|
传感器 人工智能 算法
数字孪生智慧水务系统,三维立体平台,沃思智能
智慧水务系统融合物联网、数字孪生与AI技术,实现供水全流程智能监测、预测性维护与动态优化。通过实时数据采集与三维建模,提升漏损控制、节能降耗与应急响应能力,推动水务管理从经验驱动迈向数据驱动,助力城市水资源精细化、可持续化管理。
257 142
|
1天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
本文介绍RAG(检索增强生成)技术,结合Spring AI与本地及云知识库实现学术分析AI应用,利用阿里云Qwen-Plus模型提升回答准确性与可信度。
174 90
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
|
17天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
1天前
|
机器学习/深度学习 人工智能 运维
智能照明稳压节能控制器,路灯节能稳压系统,沃思智能
智能照明调控柜集电力分配、远程控制与能耗管理于一体,支持自动调光、场景切换与云平台运维,广泛应用于市政、商业及工业领域,显著节能降耗,助力智慧城市建设。
178 137
kde
|
2天前
|
人工智能 关系型数据库 PostgreSQL
n8n Docker 部署手册
n8n是一款开源工作流自动化平台,支持低代码与可编程模式,集成400+服务节点,原生支持AI与API连接,可自托管部署,助力团队构建安全高效的自动化流程。
kde
216 3

热门文章

最新文章