RISC-V 基金会 Data Center SIG 第六次会议圆满结束,推动数据中心缺口改进及引入

简介: 重点围绕“在 RISC-V 架构中引入持久化内存(Persistent Memory,PMem)相关支持”等的方向展开讨论。

一直以来,龙蜥社区在 RISC-V 生态建设中持续投入,并积极贡献上游社区。为加速 RISC-V 在数据中心场景的能力补齐与规模化落地,RISC-V International Data Center SIG 近期将例会节奏由月度调整为双周。以下为第六次会议内容:

RISC-V 架构中引入持久化内存缺口

近期,RISC-V 基金会 Data Center SIG 月度会议于线上召开,来自阿里云、中兴通讯、Rivos、RISC-V 国际基金会等企业的宋卓、王宝林、孙浩、郭任、贾云翔、Snehasish、Beeman、Rafael 等 13 位委员及代表参会。会议由宋卓先生主持,重点围绕“在 RISC-V 架构中引入持久化内存(Persistent Memory,PMem)相关支持”的方向展开讨论。

本次会议邀请阿里云王宝林以及阿里巴巴达摩院孙浩进行分享,王宝林长期负责 龙蜥社区内核内存子系统并参与上游维护,他从云计算实际工作负载出发,介绍了 PMem 的产业背景、数据中心应用价值以及 RISC-V 当前在相关指令/语义支持方面的缺口,并建议在社区层面推动形成面向 PMem 的标准化工作。

PMem 在云数据中心的现实需求:以 Redis/数据库场景为例

王宝林指出,PMem 具备字节寻址、高密度与直接持久化等特性。尽管 Intel 已宣布 Optane PMem 产品线停止,但 PMem 的研究与应用并未停止,产业界仍在持续投入。更重要的是,PMem 在云场景已经验证了价值:例如在云数据库/缓存系统(如 Redis)中,结合 PMem 可构建混合内存架构,在保持高吞吐的同时减少传统方案的周期性延迟抖动,并提升实例异常重启后的恢复效率。

他进一步强调,在数据中心落地 PMem 的关键不止在“介质可持久化”,还在于系统能否提供可靠的持久化语义保证:若缺乏明确的持久化点与配套机制,业务往往仍需依赖持久化云盘兜底,从而引入额外成本。

来自 Akeana 的 David Weaver 在讨论中表达了强烈支持。他提到自己曾在 Sun 与 Oracle 工作,数据库公司长期对 PMem 非常关注;他认为若 RISC-V 要严肃进入数据中心,PMem 相关能力必须补齐,“如果我们要认真做 RISC-V 数据中心生态,就需要把这件事做起来”。

作为 TSC(Technical Steering Committee)成员,David 也给出了清晰的推进路径建议:

  • 对 TSC 的汇报重点不应是硬件实现细节,因为硬件设计属于后续任务组(TG)工作的范畴。
  • TSC 需要先理解两点:为什么需要(动机与价值),以及准备做什么(任务组的工作范围与交付物)。

他建议提案应明确三类核心工作:定义持久化模型(persistency model)、定义对 ISA 的影响/原语(例如 flush 到持久化点的指令语义),以及讨论持久化顺序与相关互连/协议协作等问题。

社区关切:最终产出落在哪里?——ISA 扩展是核心方向

会上,来自社区的 Victor Lu 也提出了典型问题:RISC-V 以 ISA 为核心,本议题涉及较多系统特性,最终产出将如何与 ISA 对齐?

主持人宋卓与 David 等回应称,若后续推动成立 TG,该方向最终将形成面向 RISC-V 的架构/ISA 扩展建议(例如“将指定地址数据 flush 到持久化点”的指令或原语),并在规范层面给出一致语义;至于底层硬件实现方式,可由各厂商在遵循规范的前提下选择具体实现路径。

会议后段,阿里巴巴达摩院孙浩补充表示:硬件实现应当基于清晰的 RISC-V 规范。目前 RISC-V 缺乏对应 spec,因此应优先推动形成规范文本与语义定义,硬件实现可在此基础上由不同实现方展开,并参考其他架构既有经验逐步细化。

RISC-V 数据中心的潜在缺口与改进方向

为持续推动 RISC-V 在数据中心与服务器场景的可用性与可移植性,RISC-V International Data Center SIG 召开线上双周例会。本次会议由阿里巴巴宋卓主持,并邀请来自中兴通讯的贾云翔(Yunxiang Jia)从服务器视角系统梳理当前服务器相关规范中的潜在缺口与改进方向。来自 Rivos、字节跳动、阿里巴巴及 RISC-V International 的多位代表参与讨论并提出关键建议。

服务器视角的“缺口清单”:希望补强的能力点有哪些?

贾云翔介绍了服务器视角的“缺口清单”概要解读,主要覆盖以下几个方面:

  • ISA 扩展建议

在现有服务器规范/配置中,一些 ISA 层扩展并非强制,但在安全性、可维护性等方面具有价值,贾云翔建议在服务器平台规范中评估补充(发言中举例提到若干扩展方向)。

  • PMU(性能监控)事件完善

当前规范条目(发言中提及 SPM 030/040)偏重 PCIe inbound 事件定义;他认为 outbound PCIe 事件同样重要,应纳入规范。

另外,关于部分 CMO/缓存一致性相关事件 的标准化需求,他提到 Performance Events Task Group 可能已有相关工作,希望能与服务器规范衔接、视情况纳入。

  • 调试/开发者能力(Debug capability)相关条目

他指出现有调试能力清单与 RISC-V Debug/Trace 相关规范版本之间存在差异,且有些能力(例如 program buffer 等)对开发调试很关键,希望服务器平台规范能更好覆盖。

  • Trace(跟踪)能力

他建议在服务器规范中提高对 trace 的要求,至少支持某类 trace 形态(发言中倾向 E-Trace),并希望补充更明确的技术要求描述。

  • Watchdog / Timer(看门狗与计时)

他认为 watchdog 对系统故障恢复很重要,当前要求不足;同时提到可参考 Arm 相关规范中关于 clock/time 的写法与约束。

  • 其他:复位/电源管理/CSR、以及 CXL 集成等

他提到部分复位、电源管理与 CSR 等能力在当前版本中存在缺失;此外也提到了 CXL 相关内容,希望后续能在服务器平台规范中补齐或明确。

Rivos:规范的“取舍原则”——服务器规范聚焦 OS 可移植性,不强制 Machine Mode/外部调试能力

Rivos 的 Vedvyas Shanbhogue 在讨论中提出了非常关键的规范取舍原则

  • 服务器 SoC/平台规范以及 ISA Profiles 的核心目标,是保证 可移植操作系统/Hypervisor 在低于 M-mode 的特权级上运行的一致性能力;
  • 因此,许多 Machine Mode 才可见、或偏 外部调试/外部 trace(对 OS 不可见)的能力,之所以未被纳入强制要求,并非遗漏,而是有意为之的设计选择;
  • 这类似于 Arm SBSA 等规范并不强制某些更高特权级能力。未来如果社区定义“Machine Mode Profile”,再把这类能力纳入会更合理。

这一点也帮助 SIG 成员对“哪些能力应该进入服务器平台强制项、哪些应留给实现选择”形成更清晰的边界认识。贾云翔表示会进一步消化该原则,并重新评估条目归类方式。

Trace 讨论升温:E-Trace 还是 N-Trace?SIG 需要形成偏好以利于软件可移植性

围绕 Trace,Vedvyas 进一步追问了一个对未来版本非常关键的问题:如果未来要把“自托管(self-hosted)trace”纳入 server SoC/平台规范,就必须在 E-Trace 与 N-Trace 之间做出倾向,否则两者都“可选”会削弱对可移植软件的价值。

针对此问题,贾云翔从个人角度表达更倾向 E-Trace,并希望进一步完善其规格细节;Vedvyas 表示个人也赞同,但更希望 Data Center SIG 形成明确立场/建议,以便未来规则制定与版本演进。

Watchdog/Timer 的必要性答疑:与 PMU Counter 的角色不同

字节跳动的崔云辉就 watchdog/timer 提问:既然已有 PMU counter,为何仍需要 watchdog 或独立 timer 硬件?

贾云翔回应:watchdog/timer 更多面向固件/更高特权级(偏 machine mode)场景,用于系统故障恢复与可靠性保障;崔云辉确认理解其适用范围。同时,Vedvyas 也补充:服务器 SoC 规范对 time 已有明确要求(例如 1ns 分辨率、64-bit 等),可满足长期不回绕等目标。

CXL:从“是否需要”到“如何写进规范”——类型演进与版本门槛成为焦点

CXL 部分引发了进一步讨论。字节跳动的何爽对 CXL 的必要性提出疑问:当前 CXL 是否仍偏研究探索,是否会真实落地?

主持人宋卓回应:CXL 不仅面向 AI,也在数据库与云场景有用例与业务价值,应当成为 RISC-V 服务器能力考虑的一部分。阿里巴巴薛帅补充:在云存储中“扩展内存(expander memory)”是常见使用方式。

接着,Vedvyas 则从规范制定角度补充了两点洞察:

  • CXL 规范整体“可选项较少”,并配套合规测试,相比 PCIe 的高可选性,往往难点在于“除了要求实现 CXL 规范本身,还需要额外规定什么”;
  • 他们正在考虑提出更明确的版本约束:如果集成 CXL,建议至少从 CXL 2.0 起步,避免 CXL 1.0/1.1 在 Root Complex 上引入额外复杂性(例如 RCRB 等历史包袱)。他在会上征询与会者是否认可“2.0 或更高”的方向。贾云翔表示倾向认可,但是否在规范中写成明确约束仍需进一步评估。

此外,Vedvyas 也提到:PM、电源状态与唤醒、以及 CXL 集成等内容,正在 Server SoC2 Task Group 中推进;初版未纳入属阶段性取舍,欢迎把需求带到 SoC2 TG 进一步讨论。

下一步:材料进入邮件列表,与 Server SoC/平台 TG 联动推进

会议最后,宋卓建议贾云翔将本次“缺口清单”与材料通过 Data Center SIG 邮件列表共享,以便与其它 SIG/TG(尤其是 Server SoC TG 等)开展联动协作。贾云翔确认将把文档发送至相关 TG,推动后续对齐与吸收。

随着服务器场景标准化进入深水区,Data Center SIG 也将围绕“可移植 OS 视角的强制项边界”“Trace 取舍建议”“CXL 版本门槛与集成规则”等议题继续形成更明确的社区共识,并通过与相关 TG 的协作推进到规范条文层面。

—— 完 ——

相关文章
|
2天前
|
机器学习/深度学习 数据采集 人工智能
别再从零训练了:用迁移学习“借力打力”,小数据也能玩转大模型
别再从零训练了:用迁移学习“借力打力”,小数据也能玩转大模型
74 15
|
26天前
|
机器学习/深度学习 人工智能 资源调度
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
蚂蚁inclusionAI发布开源万亿参数思考模型Ring-2.5-1T,首创混合线性注意力架构,实现“快、深、长”三大突破:推理吞吐提升3倍+,IMO/CMO达金牌水平,可在Claude Code中连续2小时开发可运行的迷你操作系统。MIT协议完全开源。
288 21
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
|
6天前
|
人工智能 安全 API
保姆级教程!OpenClaw(Clawdbot)从入门到精通(阿里云+本地部署+免费API+安全指南)
“看着技术博主演示得行云流水,自己动手却卡在安装界面”“Token、API、SK一堆概念绕晕头”“担心用着用着突然扣费几百块”——2026年,OpenClaw的爆火让无数普通人跃跃欲试,却又被这些问题挡在门外。这款被称为“AI大脑操作系统”的自动化中枢,能调用AI模型、执行任务、接入微信等聊天工具,实现“微信发指令,AI做事情”的便捷体验,但复杂的部署流程、晦涩的技术概念、潜在的安全与费用风险,让很多人望而却步。
380 4
|
1月前
|
Oracle Java 关系型数据库
JDK 18详细安装教程步骤官方正版安装包
JDK是Oracle官方Java开发工具包,含JVM、类库、编译器等,支持Java SE/EE/ME。本文提供JDK 18安装包下载及详细图文安装指南,含解压、管理员运行、环境验证(java -version)等步骤,助你快速配置Java开发环境。(239字)
|
26天前
|
JSON 运维 监控
邮件路由配置缺陷与域名伪造攻击的防御研究
本文剖析2026年新型域名伪造钓鱼攻击:攻击者利用邮件多跳转发、第三方中继等复杂路由场景下的SPF/DKIM/DMARC配置缺陷,绕过传统验证。通过技术复现与代码审计,揭示身份验证上下文丢失根源,并提出涵盖全路径梳理、强制DMARC、行为检测与零信任流程的纵深防御框架。(239字)
135 22
|
1月前
|
人工智能 监控 API
Claude Code终于有仪表盘了:3条命令装个HUD,上下文用了多少一眼就知道
老金我最近用Claude Code,遇到一个特别烦的事。 写着写着,突然蹦出来一句"context window is getting full"。 然后AI就开始犯傻了——回答变短、逻辑变乱、之前说好的方案全忘了。 每次遇到这种情况,老金我都想骂人。 问题出在哪? Claude Code的终端界面,压根看不到上下文用了多少。 你只能输入 /context手动查,但谁写代码的时候
|
1月前
|
人工智能 弹性计算 自然语言处理
阿里云推出OpenClaw极简部署方案,一键创建专属AI助手!
阿里云OpenClaw是开源、本地优先的AI智能代理平台,支持自然语言指令执行文件处理、日程管理、跨平台操作等任务。提供极简一键部署方案,无需技术基础,7×24小时专属AI助手即刻上线。
347 5
|
1月前
|
存储 人工智能 算法
|
10月前
|
存储 人工智能 安全
赋能数字化转型的创新引擎
阿里云是全球领先的云计算与人工智能科技公司,其强大的技术实力和丰富的解决方案正深刻影响企业运营与竞争力。依托坚实的云计算基础设施,阿里云提供弹性计算、存储与网络服务,满足多样化需求。在AI与大数据领域,机器学习平台PAI及MaxCompute助力智能决策与创新应用。同时,阿里云构建全方位安全防护体系,保障数据隐私,并通过活跃的开发者社区与生态合作推动行业进步。未来,阿里云将持续加大研发投入,优化云原生技术,深化AI与大数据研究,引领数字化转型潮流,共创美好未来。
赋能数字化转型的创新引擎
|
3月前
|
人工智能 弹性计算 Java
活动回顾:Arm 龙蜥齐携手,共筑 AI 时代开源 OS 新生态
共同探讨了开源操作系统与 Arm Neoverse 平台在人工智能(AI)时代的深度融合与创新实践。

热门文章

最新文章