自主和开放并举 探索下一代阿里云AI基础设施固件创新

简介: 12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。

【阅读原文】戳:自主和开放并举 探索下一代阿里云AI基础设施固件创新

12月13日,固件产业技术创新联盟产业峰会在杭州举行,来自阿里云、字节、百度、华为、飞腾、百敖、移动、浪潮和超聚变等国内30多家企业,上百位固件从业人员线下参会,就固件技术发展和开源开放标准进行线下交流和研讨。联盟在现场进行了多项重磅发布和先进表彰,其中阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。

 

 

中国电子技术标准化研究院副院长郭楠为大会致辞。郭楠指出,固件作为硬件与软件系统之间的重要桥梁,是信息技术稳定运行与高效交互的核心环节。随着新一代信息技术的快速发展,固件产业正迎来前所未有的发展机遇,特别是在中国芯蓬勃发展的背景下,固件的市场需求和创新空间日益扩大。希望各方加强合作与交流,汇聚智慧与力量,共同推动固件技术与产业的快速发展,为我国信息产业基础建设提供坚实支撑。

 

 

 

 

历久弥新

AI时代服务器固件技术更加关键

 

固件技术的标准化可以提升服务器产品的兼容性、互操作性,降本增效,通过制定标准,推动IT设备产业的健康发展。这其中又以BIOS为重中之重。在对下一代BIOS技术需求的闭门研讨中,阿里云服务器研发资深技术专家李羿表示,BIOS升级不能中断业务运行,特别是下一代AI基础设施中,作为定义各部件协同接口,高效完成启动和升级关键动作的控制中枢,BIOS技术历久弥新,发挥越来越关键的作用。BMC属于传统带外业务,云厂商经常碰到带外影响带内业务,阿里云通过专项治理已解决该问题。与此同时,阿里云在服务器故障预测的准确率和召回率上也处于行业领先水平,特别是针对GPU故障预测技术的逐步落地,预计AI硬件系统带来巨大收益。未来固件技术一定是走向更开放、更贴合硬件,发挥出硬件极致性能并提供高可靠性的模式。

 

 

牵头固件开源测试工具研发

荣膺特别贡献奖

 

作为大会重点之一,固件测试认证平台开源测试工具也在大会主论坛正式发布。此工具主要服务于已发布的BIOS/BMC团标认证测试,同时也支撑即将发布的5项行业标准测试认证服务,给互联网和电信等行业用户基线测试和引入测试提供指引。此次开源测试工具的发布,不仅是推动技术标准化与产业协同方面取得的重要进展,也为固件技术的安全性、规范性和产业化应用提供了有力支撑。

 

长期以来,国内固件领域缺少统一的认证平台和测试标准,导致固件测试效率不高,影响行业的创新和发展。在去年6月固件产业技术创新联盟产业峰会上,阿里云联合其他固创联盟成员,牵头开启固件测试认证平台的研发工作,同时发起平台工具开源项目。开源固件测试认证平台不仅服务于BIOS/BMC标准符合性认证测试,同时也服务于业内互联网厂商服务器固件的引入标准测试。来自固件创新联盟10余家成员单位累计40余位开发者加入开源工具项目组,积极参与固件测试认证平台建设,踊跃贡献测试用例,协同开发测试工具。当前,固件测试认证平台已完成200余项用例开发,可满足联盟相关BIOS和BMC标准符合性测试和云服务器机型引入测试,并在本次大会上正式对业界开放。

 

在整个开源固件测试认证平台的设计和建设过程中,阿里云负责设计开发整个固件测试认证平台的框架和基础模块代码,主导开源项目的整体运作,将业内主流公司固件引入的标准用例落地到开源测试认证平台中,同时也为后续ODM厂商推广固件认证,提升服务器标准机固件引入效率迈出了关键一步。因此,阿里云服务器研发高级技术专家杨青荣膺开源项目最佳贡献奖,表彰其在开源固件测试平台和开源工具建设方面做出的突出贡献。

 

 

 

PCIe Switch固件技术首次公开亮相

 

在技术分享环节,阿里云服务器研发资深技术专家蒋小安联合华勤共同完成了关于PCIe Switch固件技术的首次公开演讲。此次演讲不仅展示了该领域的最新研究成果,还深入探讨了这一技术在实际应用中的重要性。PCIe Switch作为一种关键组件,在千卡和万卡级别的AI服务器互连中发挥着至关重要的作用,它能够有效提升数据传输效率和系统整体性能。随着AI服务器系统的复杂性不断增加,对于PCIe Switch固件的需求也日益增长,越来越多的企业开始重视并投入资源进行相关研究。此次演讲所披露的技术细节属于非传统的固件开发方案,相较于传统方案,这种新型技术能够更好地应对复杂多变的应用场景,减少系统爆炸半径,提高系统的灵活性与稳定性。

 

 

自研和开放并举迎接AI浪潮挑战

 

近年来随着云计算、人工智能,特别是大模型技术应用的快速发展,数据中心规模不断扩张催生了更多更复杂的服务器基础设施建设,以及随之而来服务器固件研发和管理的新需求。阿里云在OpenBMC和PCIe Switch固件技术等领域不断进行自研创新,通过固件技术新趋势和潜力的挖掘,以应对上述AI浪潮带来的挑战。此外,阿里云还积极参与固件创新联盟,UEFI、DMTF和OpenBMC等国内外固件标准和生态组织,贡献标准提案和相关源码,推动固件开放生态的不断繁荣。未来,阿里云将坚持自研和开放生态两条路,推动产业链上下游企业和开放生态联动的创新实践,为固件创新产业化落地做好示范。




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
2天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
|
9天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
11天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
8878 20
|
15天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4769 12
资料合集|Flink Forward Asia 2024 上海站
|
15天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
23天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
11天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
10天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
878 58