产学研共话 AI Infra:龙蜥智算联盟探索大模型全场景落地新路径

简介: 清晰勾勒出大模型时代 AI 基础设施的演进方向。

1 月 31 日,龙蜥×SGLang MeetUp 在北京市成功举办。在主题为“智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?”的圆桌讨论中,汇聚了来自龙蜥智算联盟的多位产业与学术专家,围绕大模型推理中的核心挑战——KV Cache 管理、异构算力调度、软硬件协同与超节点架构——展开深入探讨。本次圆桌由 Mooncake 核心贡献者马腾主持,邀请了龙蜥社区智算联盟主席宋卓、摩尔线程副总裁王华、沐曦股份研究院院长李兆石、中兴通讯 Al Infra 资深架构师孙洪峰、浪潮信息系统软件研发经理 Andy Cao、中国科学技术大学特任副研究员白有辉 6 位技术专家,与现场嘉宾讨论涵盖国产 GPU 在量化与存储访问上的创新潜力、CXL 与 RDMA 网络在跨节点 KV 传输的应用、稀疏 Attention 算法的工业落地路径,以及超节点环境下分层存储体系的演进趋势,共同展望中国 AI Infra 生态的未来发展。

1、KV Cache 与显存瓶颈:硬件与算法的协同优化

摩尔线程副总裁王华指出,面对百万级上下文带来的显存压力,硬件层面可通过融合量化、反量化与计算的算子优化来降低访存开销,但物理上限决定了必须结合系统级优化(如压缩、分层存储)。他强调,硬件厂商需与社区紧密协作,共同定义和验证优化方案。

沐曦股份研究院院长李兆石则从硬件实现角度补充,量化(如 BF16 到 INT4)虽能压缩容量、提升带宽利用率,但其数值稳定性(如累加精度、微缩放、截断)高度依赖底层算子实现细节。他指出,量化需由算法牵引,通过社区反复验证才能落地。

中国科学技术大学特任副研究员白有辉分析,量化之所以被广泛采用,是因为它属于算子级改动,对系统软件影响小;而稀疏注意力(Sparse Attention)或线性注意力(Linear Attention)等方案则涉及系统级重构(如数据加载模式、内存管理),实现复杂度高,导致工业落地缓慢。他强调,稀疏注意力在解码阶段的动态选择机制(如 DeepSeek)虽有前景,但其与分布式 KV Cache 池的结合,将形成“全量 KV 在外部,热点 Top-K 在 GPU 缓存”的多级复杂系统,亟需系统层面的创新。

2、跨节点 KV Cache 传输:网络与协议的革新

中兴通讯 AI Infra 资深架构师孙洪峰分享,中兴基于定海网卡和凌云交换机,实现了对 KV Cache 的精细流控与优速带宽控制,保障了 P/D 分离场景下的低延迟传输。他透露,中兴已研发出全局 KV Cache 管理系统,并计划全面拥抱开源,向 SGLang 社区贡献技术。

浪潮信息系统软件研发经理 Andy Cao 则认为,当前互联拓扑(如 400G RDMA)已不再是瓶颈,关键在于如何利用高性能网络提升算力利用率。他提出,CXL 协议的出现为 KV Cache 传输提供了新思路,它既能作为高速内存扩展,又能作为存储接口,支持小数据、离散数据的高效传输。近日,浪潮信息已基于 Mooncake 社区开展 CXL 相关集成工作。

3、异构算力调度:统一管理与资源池化

龙蜥社区智算联盟主席宋卓强调,在包含多种 GPU 的集群中,不应盲目混用所有卡型,而应基于业务负载(计算密集型、存储密集型),如:长上下文等,制定明确的调度策略。他提出,需结合 KV Cache 池进行分级管理,并对不同算力的硬件差异能够 aware 感知,同时建立完善的容量评估,SLO 保障、资源监控与运维体系。

浪潮信息系统软件研发经理 Andy Cao 补充,浪潮信息的核心理念是“以应用为导向,以系统设计为核心”。他认同宋卓的观点,认为调度需区分不同 Workload,将计算密集型任务分配给算力强的 GPU,带宽密集型任务分配给带宽强的 GPU。同时,资源池化是关键,通过将 KV Cache 从单一节点解耦,形成共享池,可更灵活地匹配不同应用的复用需求,最大化整体资源利用率。

4、学术成果向工业实践的转化

中国科学技术大学特任副研究员白有辉认为,学术界在稀疏 KV Cache 存储方案上的研究(如动态 Top-K 选择)已相对成熟,但落地困难。主要原因在于:工业界对算法精度存疑,以及系统改造成本高。他建议,应通过开源共享研究成果,并与有真实需求的公司合作,搭建基于特定算法的 KV Cache 服务平台,是推动落地的有效路径。

5、软硬件协同:从适配到引领

摩尔线程副总裁王华指出,软硬件协同是核心,需从底层硬件(显存、带宽)到驱动、算子库、编程接口提供全面支持。他强调,优化需结合特定硬件(如 H800 与H20)的特性进行定制,形成从框架调度到底层算子的全栈优化。

沐曦股份研究院院长李兆石展望未来,认为国内生态已进入“引领创新”的阶段。他预测,随着 DeepSeek 等开源项目推动的 PD 分离等架构被国外广泛借鉴,未来国内的 AI Infra(如 Mooncake、SGLang)将反向驱动国内硬件创新,例如 GPU 直接访问对象存储、绕开 CPU 的新型存储栈等。

6、超节点场景下的KV Cache与系统演进

摩尔线程副总裁王华对 CXL 用于超节点的 KV Cache Offload 持保留态度,认为其需经 CPU 中转,延迟优势不明显,分布式存储才是更可靠的方案。他看好 CXL+DRAM+SSD 的异构分层系统。

沐曦股份研究院院长李兆石认为,超节点(如 GB200/GB300)的出现使 KV Cache 的分层存储更具经济性和必要性。浪潮信息系统软件研发经理 Andy Cao 指出,若 CXL Switch 普及,GPU 可直接通过南向互联访问 CXL 内存,有望将传统四层(HBM→Local SSD→Ethernet)简化为两层,核心在于计算能否覆盖传输延迟。

中国科学技术大学特任副研究员白有辉总结,当前 KV Cache 系统呈现 L1(HBM)、L2(CPU 内存)、L3(分布式池)的三层结构。随着上层应用(Agent)和算法(如动态稀疏)的演进,以及底层硬件(CXL、SSD)的迭代,中间层将不断丰富(如 L2.5、L4),系统将变得极为复杂。未来的关键是构建一个灵活、可扩展的系统框架,使其能包容任何硬件和算法的变革,实现“以不变应万变”。

(图/圆桌分享嘉宾)


此次圆桌讨论清晰勾勒出大模型时代 AI 基础设施的演进方向:硬件创新需与算法突破深度耦合,系统优化必须面向真实业务场景,而生态建设则依赖开源社区的协同共建。

从 KV Cache 管理到超节点架构,从异构调度到软硬件协同,每一个环节都既充满技术挑战,也蕴含弯道超车的机遇。这要求产业界建立更加灵活、可扩展的技术框架,以"以不变应万变"的系统思维,包容算法与硬件的快速迭代。龙蜥智算联盟将持续凝聚产学研力量,推动国内 AI 基础设施走向开放、高效的新阶段。

最后,感谢各位嘉宾的精彩分享,也感谢金美琴、宋卓、章津楠、潘珏君、李军等智算联盟成员对本场圆桌的组织和支持。

相关文章
|
20天前
|
存储 人工智能 测试技术
基于 VectorDBBench 的性能评测与架构解析:Lindorm 向量引擎的优化实践
阿里云Lindorm向量检索服务重磅升级,依托CBO/RBO混合优化器与自适应混合索引,实测QPS达5.6万(百万级)、2.4万+(千万级),P99延迟低至2ms,融合检索性能行业领先,全面支撑AI时代高并发、低延迟、强一致的生产级向量应用。
168 4
|
20天前
|
人工智能 监控 API
Claude Code终于有仪表盘了:3条命令装个HUD,上下文用了多少一眼就知道
老金我最近用Claude Code,遇到一个特别烦的事。 写着写着,突然蹦出来一句"context window is getting full"。 然后AI就开始犯傻了——回答变短、逻辑变乱、之前说好的方案全忘了。 每次遇到这种情况,老金我都想骂人。 问题出在哪? Claude Code的终端界面,压根看不到上下文用了多少。 你只能输入 /context手动查,但谁写代码的时候
|
19天前
|
人工智能 弹性计算 运维
小白也能上手!阿里云推出 OpenClaw 极速简易部署方案
阿里云OpenClaw是开源本地优先AI智能体平台,支持邮件处理、周报生成、资料查询、代码编写等任务,数据全留本地,保障隐私。技术小白也能通过阿里云轻量服务器“一键部署”,几分钟即可拥有专属AI数字员工。
192 15
|
2月前
|
人工智能 关系型数据库 分布式数据库
多图,PolarDB 2026 开发者大会有感
解读阿里云PolarDB开发者大会上数据库的AI原生演进:从数据形态融合、模型算子化到湖库一体架构,PolarDB通过四大支柱构建面向智能体时代的统一数据基座,推动数据库向“AI in SQL”与自主治理的深度变革。
|
5天前
|
机器学习/深度学习 人工智能 资源调度
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
蚂蚁inclusionAI发布开源万亿参数思考模型Ring-2.5-1T,首创混合线性注意力架构,实现“快、深、长”三大突破:推理吞吐提升3倍+,IMO/CMO达金牌水平,可在Claude Code中连续2小时开发可运行的迷你操作系统。MIT协议完全开源。
182 21
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
GEO 方法论内容-DPI-ACD 模型解释型
爱搜光年首创DPI-ACD医疗GEO模型,通过决策路径拦截(DPI)与非对称语料布控(ACD),工程化干预大模型输出与RAG检索,重塑AI时代的品牌认知权重与信任结构,助力医疗机构在生成式搜索中被看见、被推荐、被信任。(239字)
101 14
|
存储 算法 数据处理
从零搭建向量数据库:实现文本语义检索实战
本文带你从零实现一个最小可用的文本语义检索系统,剖析向量数据库核心模块:文本嵌入、向量存储、近似最近邻搜索、元数据过滤等。不追求极致性能,重在理解工程设计权衡。通过亲手搭建,掌握系统瓶颈与优化方向,真正用好成熟方案。
|
2月前
|
数据采集 监控 安全
数据治理怎么做?一文讲清数据治理实施的步骤流程
本文深入浅出解析数据治理:从识别数据混乱痛点(如字段不一、脏数据)出发,系统阐述其本质是建立数据资产的全局规则与持续管控体系;并提供从规划、盘点、建模到组织建设、质量与安全落地、常态化运营的五步实操路径,助力企业让数据真正可信、可用、可控。
173 12
|
2天前
|
人工智能 运维 API
2026年阿里云无影云电脑+本地部署OpenClaw(Clawdbot)+Skills集成小白喂饭级教程
2026年,AI自动化工具迎来全民普及,OpenClaw(原Clawdbot、Moltbot)凭借“零代码入门、全场景适配、轻量化运维”的核心优势,成为小白用户搭建专属AI助手的首选。而阿里云无影云电脑的专属一键部署方案,更是彻底打破了传统部署的技术壁垒,无需手动配置环境、编写复杂命令,依托云端算力实现7×24小时稳定运行,搭配本地部署的灵活便捷,再加上丰富的Skills生态插件,让小白也能轻松解锁“自然语言指令驱动全流程自动化”的强大能力。
125 18
|
17天前
|
前端开发 数据可视化 API
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22
本文介绍了一个轻量级TTS+ASR融合交互系统,基于HTML/CSS/JS前端与Python Flask后端,集成Whisper语音识别与pyttsx3文本转语音,实现“语音→文本→语音”闭环。支持浏览器录音、实时转写、语音播放及历史管理,无需依赖框架或网络,适合快速部署与二次开发。
168 18

热门文章

最新文章