上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。

终端是实现数字智能和生命智能自由交互的重要接口,持续帮助人类拓展生产能力的边界。当下,终端智能面临着“能效-空间-智能”的不可能三角:以DeepSeek-R1为例,其参数规模高达6710亿,超出了大部分笔记本电脑的内存容量;即使勉强在一台笔记本电脑上成功运行满血版模型,理论上坚持不到9分钟就会耗尽电池;如果通过蒸馏,将满血版模型压缩到更小尺寸,此时的精度损失又可能满足不了智能水平的要求。

 

针对上述挑战,7月24日,无问芯穹发布终端本征大模型Megrez2.0,它在实现21B参数,也就是云端级智能水平的同时,将实际计算量控制在3B、内存占用控制在7B规模,从而可以完美地适配当下的各类终端设备,成功打破了终端“能效-空间-智能”的不可能三角。

 

模型链接:

https://www.modelscope.cn/models/InfiniAI/Megrez2-3x7B-A3B-Preview/summary

image.gif 编辑

image.gif 编辑

终端本征架构

打破“能效-空间-智能”的不可能三角

传统稠密模型在端侧的黄金尺寸是3B,这个尺寸即可以较好的契合端侧有限的算力和存储,又具有基础的智能水平。但若继续增大尺寸,端侧的推理速度会快速下降。

 

如何让3B的算力发挥更大的智能?主流的方式是MoE,即通过参数冗余和动态激活,为模型精度加杠杆。例如一个总参数量21B,激活参数量3B大小的模型,虽然只有3B计算量,但理论精度潜力高达21B,实际也有7~14B的精度表现。但这21B的总参数量对于端侧太过巨大,如果全部放在外存,外存较低的带宽速率会带来Decode速度指数级下降,而如果限制模型激活参数的locality将部分参数放入内存,又会与MoE的动态多样性与平衡性相违背,带来精度下降。

 

无问芯穹本次提出的终端本征架构,引入了重参数机制,将若干个相邻MoE层划成一组,复用Expert专家参数。这样一个原本30层MoE层的模型,原始总参数量21B。现在每3层共享参数相互复用,模型的实际总参数量下降到21/3即7B大小,但激活可用的专家池空间仍为21B。

 

此外,本次发布的Megrez 2.0为Preview版本,虽然训练数据量只有5T Tokens,但已表现出优异的精度潜力。相较于国内外主流的端侧模型,我们的模型速度相比同内存占用的模型快50%,精度比同尺寸稠密模型提升36%,内存则是比同精度模型节约75%,真正做到高能效、少内存、高智能。

 

Benchmark

Megrez2-3x7B-A3B-Preview

Qwen3-8B

Phi-4-mini

MMLU-Pro

67.6

-

52.8

IF-Eval

80.2

83

68.6

 

终端本征智能应用落地

打破AI的时空能动性边界

 

当端侧级算力撬动起云侧级模型的智能水平,智能体等AI应用将得以在端侧释放更大的能动性。Megrez2.0加持的终端设备,代理任务处理准确率高达95%,复杂代理任务端侧处理时间只需不到3分钟。此外,Megrez2.0还通过巧妙的工程设计,赋予终端设备更强的能动性,使设备在用户无感知的休眠时段里,也能持续创造价值。

 

发布会现场,Megrez2.0的研发团队为大家带来了一个令人激动的演示——用户在电脑合盖之前给出语音指令“整理今日会议记录”。电脑合盖后,系统自动调度闲置CPU周期执行后台任务,等任务完成后,则自动释放内存并转入待机。唤醒设备时,整理好的会议纪要已完整呈现在电脑上,算力亦能瞬时恢复满血状态,并且全程无唤醒、无联网、无发热。

 

Megrez 2.0 坚信,端侧智能体蕴藏着无限可能。它的推出,旨在解锁端侧智能的全新图景:让云端级智能真正落地于端侧设备。由此,智能体等先进 AI应用得以在用户指尖、设备本地获得更多生长空间,随用户个性而进化捕捉用户更多偏好并完成智能自主进化,释放前所未有的能动性——自由、高效且无处不在。

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 运维
云架构不是养祖宗,智能运维教你省心又省钱
云架构不是养祖宗,智能运维教你省心又省钱
93 2
|
3月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
300 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
4月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
517 2
|
1月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
194 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
2月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
153 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
6月前
|
人工智能 负载均衡 API
长连接网关技术专题(十二):大模型时代多模型AI网关的架构设计与实现
随着 AI 技术快速发展,业务对 AI 能力的渴求日益增长。当 AI 服务面对处理大规模请求和高并发流量时,AI 网关从中扮演着至关重要的角色。AI 服务通常涉及大量的计算任务和设备资源占用,此时需要一个 AI 网关负责协调这些请求来确保系统的稳定性与高效性。因此,与传统微服务架构类似,我们将相关 API 管理的功能(如流量控制、用户鉴权、配额计费、负载均衡、API 路由等)集中放置在 AI 网关层,可以降低系统整体复杂度并提升可维护性。 本文要分享的是B站在大模型时代基于多模型AI的网关架构设计和实践总结,希望能带给你启发。
482 4
|
6月前
|
人工智能 缓存 自然语言处理
Bolt DIY架构揭秘:从模型初始化到响应生成的技术之旅
在使用Bolt DIY或类似的AI对话应用时,你是否曾好奇过从输入提示词到获得回答的整个过程是如何运作的?当你点击发送按钮那一刻,背后究竟发生了什么?本文将揭开这一过程的神秘面纱,深入浅出地解析AI对话系统的核心技术架构。
|
7月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
1月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。

热门文章

最新文章