自主和开放并举 探索下一代阿里云AI基础设施固件创新

简介: 12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。

【阅读原文】戳:自主和开放并举 探索下一代阿里云AI基础设施固件创新

12月13日,固件产业技术创新联盟产业峰会在杭州举行,来自阿里云、字节、百度、华为、飞腾、百敖、移动、浪潮和超聚变等国内30多家企业,上百位固件从业人员线下参会,就固件技术发展和开源开放标准进行线下交流和研讨。联盟在现场进行了多项重磅发布和先进表彰,其中阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。

 

 

中国电子技术标准化研究院副院长郭楠为大会致辞。郭楠指出,固件作为硬件与软件系统之间的重要桥梁,是信息技术稳定运行与高效交互的核心环节。随着新一代信息技术的快速发展,固件产业正迎来前所未有的发展机遇,特别是在中国芯蓬勃发展的背景下,固件的市场需求和创新空间日益扩大。希望各方加强合作与交流,汇聚智慧与力量,共同推动固件技术与产业的快速发展,为我国信息产业基础建设提供坚实支撑。

 

 

 

 

历久弥新

AI时代服务器固件技术更加关键

 

固件技术的标准化可以提升服务器产品的兼容性、互操作性,降本增效,通过制定标准,推动IT设备产业的健康发展。这其中又以BIOS为重中之重。在对下一代BIOS技术需求的闭门研讨中,阿里云服务器研发资深技术专家李羿表示,BIOS升级不能中断业务运行,特别是下一代AI基础设施中,作为定义各部件协同接口,高效完成启动和升级关键动作的控制中枢,BIOS技术历久弥新,发挥越来越关键的作用。BMC属于传统带外业务,云厂商经常碰到带外影响带内业务,阿里云通过专项治理已解决该问题。与此同时,阿里云在服务器故障预测的准确率和召回率上也处于行业领先水平,特别是针对GPU故障预测技术的逐步落地,预计AI硬件系统带来巨大收益。未来固件技术一定是走向更开放、更贴合硬件,发挥出硬件极致性能并提供高可靠性的模式。

 

 

牵头固件开源测试工具研发

荣膺特别贡献奖

 

作为大会重点之一,固件测试认证平台开源测试工具也在大会主论坛正式发布。此工具主要服务于已发布的BIOS/BMC团标认证测试,同时也支撑即将发布的5项行业标准测试认证服务,给互联网和电信等行业用户基线测试和引入测试提供指引。此次开源测试工具的发布,不仅是推动技术标准化与产业协同方面取得的重要进展,也为固件技术的安全性、规范性和产业化应用提供了有力支撑。

 

长期以来,国内固件领域缺少统一的认证平台和测试标准,导致固件测试效率不高,影响行业的创新和发展。在去年6月固件产业技术创新联盟产业峰会上,阿里云联合其他固创联盟成员,牵头开启固件测试认证平台的研发工作,同时发起平台工具开源项目。开源固件测试认证平台不仅服务于BIOS/BMC标准符合性认证测试,同时也服务于业内互联网厂商服务器固件的引入标准测试。来自固件创新联盟10余家成员单位累计40余位开发者加入开源工具项目组,积极参与固件测试认证平台建设,踊跃贡献测试用例,协同开发测试工具。当前,固件测试认证平台已完成200余项用例开发,可满足联盟相关BIOS和BMC标准符合性测试和云服务器机型引入测试,并在本次大会上正式对业界开放。

 

在整个开源固件测试认证平台的设计和建设过程中,阿里云负责设计开发整个固件测试认证平台的框架和基础模块代码,主导开源项目的整体运作,将业内主流公司固件引入的标准用例落地到开源测试认证平台中,同时也为后续ODM厂商推广固件认证,提升服务器标准机固件引入效率迈出了关键一步。因此,阿里云服务器研发高级技术专家杨青荣膺开源项目最佳贡献奖,表彰其在开源固件测试平台和开源工具建设方面做出的突出贡献。

 

 

 

PCIe Switch固件技术首次公开亮相

 

在技术分享环节,阿里云服务器研发资深技术专家蒋小安联合华勤共同完成了关于PCIe Switch固件技术的首次公开演讲。此次演讲不仅展示了该领域的最新研究成果,还深入探讨了这一技术在实际应用中的重要性。PCIe Switch作为一种关键组件,在千卡和万卡级别的AI服务器互连中发挥着至关重要的作用,它能够有效提升数据传输效率和系统整体性能。随着AI服务器系统的复杂性不断增加,对于PCIe Switch固件的需求也日益增长,越来越多的企业开始重视并投入资源进行相关研究。此次演讲所披露的技术细节属于非传统的固件开发方案,相较于传统方案,这种新型技术能够更好地应对复杂多变的应用场景,减少系统爆炸半径,提高系统的灵活性与稳定性。

 

 

自研和开放并举迎接AI浪潮挑战

 

近年来随着云计算、人工智能,特别是大模型技术应用的快速发展,数据中心规模不断扩张催生了更多更复杂的服务器基础设施建设,以及随之而来服务器固件研发和管理的新需求。阿里云在OpenBMC和PCIe Switch固件技术等领域不断进行自研创新,通过固件技术新趋势和潜力的挖掘,以应对上述AI浪潮带来的挑战。此外,阿里云还积极参与固件创新联盟,UEFI、DMTF和OpenBMC等国内外固件标准和生态组织,贡献标准提案和相关源码,推动固件开放生态的不断繁荣。未来,阿里云将坚持自研和开放生态两条路,推动产业链上下游企业和开放生态联动的创新实践,为固件创新产业化落地做好示范。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
14
15
1
241
分享
相关文章
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
Bolt.diy:更灵活更开放的AI全栈开发工具
Bolt.new是一款爆火的AI全栈开发工具,允许用户在浏览器中运行Node.js环境并通过自然语言生成、编辑和部署Web应用。然而,它存在一定的封闭性,仅支持官方指定的大语言模型和Netlify部署。而Bolt.diy作为其开源版本,功能更强大灵活,支持多种大模型选择(如OpenAI、Anthropic等)、丰富的输入方式及多云部署选项(如Vercel、AWS)。此外,Bolt.diy还提供本地文件同步、代码下载到GitHub等功能,适用于快速原型设计、教育与企业级开发等多种场景。
Bolt.diy:更灵活更开放的AI全栈开发工具
阿里云 AI 搜索开放平台新发布:增加 QwQ 模型
阿里云 AI 搜索开放平台 新增加 QwQ 模型,将为企业和开发者带来更强大的搜索解决方案。
93 11
阿里云AI Stack,加速大模型创新应用
阿里云AI Stack作为面向企业级客户的轻量化、极致性价比、软硬一体AI解决方案,顺利通过了中国信通院《AI大模型一体机技术能力要求》测评。
176 1
让数据与AI贴得更近,阿里云瑶池数据库系列产品焕新升级
4月9日阿里云AI势能大会上,阿里云瑶池数据库发布重磅新品及一系列产品能力升级。「推理加速服务」Tair KVCache全新上线,实现KVCache动态分层存储,显著提高内存资源利用率,为大模型推理降本提速。
阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024
在新加坡 ElasticON 2025 的 Elastic 合作伙伴峰会上,阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024!
更低成本、更高效、更安全!阿里云与钉钉联合推出协同办公AI解决方案
阿里云与钉钉携手推出了全新的“钉钉·AI Stack一体机”,以“低成本、高安全、零门槛”为核心,为用户提供基于钉钉,从模型部署到全员落地的AI解决方案,开启智能化办公的“一键加速”。
154 1
小鹏汽车选用阿里云PolarDB,开启AI大模型训练新时代
PolarDB-PG云原生分布式数据库不仅提供了无限的扩展能力,还借助丰富的PostgreSQL生态系统,统一了后台技术栈,极大地简化了运维工作。这种强大的组合不仅提高了系统的稳定性和性能,还为小鹏汽车大模型训练的数据管理带来了前所未有的灵活性和效率。
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
本文详细评测了阿里云操作系统控制台,作为一款集运维管理、智能助手和系统诊断于一体的工具,它为企业提供了高效管理云资源的解决方案。文章涵盖登录与服务开通、系统管理与实例纳管、组件管理与扩展功能、系统诊断与问题排查以及实时热点分析与性能优化等内容。通过实际操作展示,该平台显著提升了运维效率,并借助AI智能助手简化了复杂操作。建议进一步完善组件库并增强第三方兼容性,以满足更多高级运维需求。
97 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等