DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

简介: 当AI模型规模不断扩张,一个根本性问题愈发凸显:宝贵的算力是否被浪费在了本应“记住”而非“推算”的任务上?DeepSeek最新披露的Engram技术,正是对这一痛点的结构性回应。它试图将事实性记忆从昂贵的连续神经网络计算中剥离,转向确定性的高效查找,为大模型架构开辟了一条全新的“稀疏性”优化路径。这或许意味着,下一代模型的竞争焦点,正从参数规模转向计算质量的重新分配。

一向低调的 DeepSeek,在凌晨悄然更新了 GitHub。

没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram

更耐人寻味的是,这篇论文的作者列表中,再次出现了 梁文锋 的名字。

论文标题很“工程味”:

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

一句话概括:这是一次试图把「记忆」从神经网络里拆出来的架构实验。

而不少开发者已经开始猜测——这可能不是一篇“孤立论文”,而是 DeepSeek 下一代模型(V4)的重要技术预告。



一、一个长期被忽视的问题:大模型到底在“算什么”?

当前主流的大模型,无论是 Dense Transformer,还是 MoE,本质上都在做同一件事:

用大量连续矩阵计算,去完成两类完全不同的工作。

第一类,是事实性记忆。 例如:

  • 法国的首都是哪
  • 某个 API 的固定用法
  • 常见代码模板、语法结构

这些问题,本质上更接近查表

第二类,是组合推理与计算。 例如:

  • 多步逻辑推导
  • 复杂上下文理解
  • 抽象概念的重新组合

这才是真正需要神经网络“算”的地方。

问题在于:我们一直在用同一套高成本的神经计算,同时承担这两种职责。

MoE 解决了什么? 它解决的是:

参数规模 ≠ 计算量必须线性增长

但 DeepSeek 的观察更进一步:

即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。

于是 Engram 出现了。



二、Engram 在做什么?一句话:该查的,别算

“Engram” 是神经科学中的术语,意为 记忆痕迹

在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块

核心思想并不复杂,但非常“反直觉”:

把一部分模型能力,从连续神经计算,转移到确定性查找。

具体来说,Engram 做了三件事:

第一,它不再试图“理解”所有 token。 而是将输入切分成 N-gram 片段(连续 token 组合)。

第二,这些 N-gram 会通过 哈希映射,直接定位到一个巨大的 Lookup Table。

第三,查找是确定性的、O(1) 复杂度。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。

这意味着什么?

模型可以用极低的算力,调用海量“已知模式”。



三、一条新的稀疏性轴:它和 MoE 并不冲突

论文里有一句很关键的话:

Engram introduces a new axis of sparsity.

这句话的分量不小。

MoE 的稀疏性,是:

  • 条件计算
  • 只激活少量专家网络

Engram 的稀疏性,是:

  • 条件查找
  • 只命中极少量记忆条目

两者解决的是不同问题。

可以这样理解:

模块 在干什么
Engram 快速回忆“我以前见过什么”
MoE / Transformer 认真思考“现在该怎么推理”

在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络,终于可以把算力集中在真正困难的推理任务上。


四、为什么工程师会对它这么兴奋?

在 Reddit、X 等社区里,技术讨论的焦点并不在“效果提升了多少”,而在几个更底层的点上:

第一,确定性寻址。 哈希 + 查表意味着:

  • 逻辑清晰
  • 行为稳定
  • 可预测

这对工程系统来说,价值极高。

第二,潜在的硬件友好性。 有开发者指出:

Engram 的查找表,理论上可以放在主机内存中,而不是全部压在 GPU 上。

这让“本地部署大模型”的想象空间突然变大了。

第三,它并不依赖新奇技巧。 N-gram、哈希、查表—— 这些都是 NLP 领域的“老东西”。

但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置


五、V4 会用吗?没人官宣,但信号已经很明显

DeepSeek 并没有说 Engram 会直接进入 V4。

但社区的推断并非空穴来风:

  • 这是一个可独立插拔的模块
  • 它解决的是长期存在的结构性问题
  • 论文中大量讨论的是规模化行为,而非小模型技巧

更重要的是,这种设计理念,和 DeepSeek 过去的路线高度一致:

不盲目堆参数,而是不断重构“算力应该花在哪里”。

如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:

记忆与推理的结构性分离。


六、人工智能测试开发训练营

霍格沃兹测试开发学社做课程时,我们很少从“模型参数”讲起。

原因很简单:

大多数工程师真正缺的,不是论文阅读能力,而是把 AI 变成系统能力的路径。

无论是 Agent、RAG,还是今天看到的 Engram,本质上都在指向同一个方向:

AI 已经进入“工程复杂度主导”的阶段。

这也是我们课程一直强调的重点:

  • AI 系统如何拆模块
  • 推理链路如何可控
  • 复杂能力如何工程化落地

不是追某一个模型版本,而是建立长期可迁移的能力结构。


写在最后

Engram 并不是在“否定神经网络”。

它做的,只是一个极其工程化、但极其重要的判断:

不是所有智能,都值得用矩阵乘法来实现。

当模型规模继续扩大, 也许真正决定上限的,不再是参数数量, 而是——你是否知道,哪些东西该算,哪些东西只需要记住。

这条路,一旦走通,影响的不会只是 DeepSeek。

相关文章
|
存储 人工智能 缓存
DeepSeek V4全网猜测汇总:四大焦点浮出水面
DeepSeek V4因代码曝光引发热议,全网聚焦发布时间、核心技术、能力成本及生态格局四大焦点,线索源自公开爆料与实测。官方暂未回应,待其首发后可通过LLaMA-Factory Online解锁定制玩法。
352 0
|
7月前
|
存储 测试技术 开发者
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
本文深入解析NVIDIA推出的NVFP4量化技术,探讨其在Blackwell GPU架构下的性能优势。通过对比主流4位量化方法,分析NVFP4在精度、内存和推理吞吐量方面的表现,结合LLM-Compressor与vLLM框架展示量化与部署实践,验证其在消费级与企业级应用中的高效性与实用性。
1305 15
NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速
|
5月前
|
并行计算 测试技术 异构计算
Qwen3 Next 在 TensorRT LLM 上的部署指南
本指南介绍如何在TensorRT LLM框架上部署Qwen3-Next-80B-A3B-Thinking模型,基于默认配置实现快速部署。涵盖环境准备、Docker容器启动、服务器配置与性能测试,支持BF16精度及MoE模型优化,适用于NVIDIA Hopper/Blackwell架构GPU。
1285 154
|
18天前
|
人工智能 运维 文字识别
DeepSeek V4春节炸场,三大黑科技让Claude和GPT都坐不住了
今儿看到个信息,DeepSeek可能发布V4了。 老金我第一时间测试佐证了一下。 虽说官方没明确公布上线,但是咱可以先来了解下它的 3大创新能力。 DeepSeek作为国产之光(毕竟 价格屠夫),老金我是尤为关注的。 这个模型它不是小更新,是直接对标Claude Opus 4.5和GPT-5的那种 大级别的。 上次DeepSeek R1发布的时候,硅谷那边就已经慌了一波。 这次V4,定位更狠—
|
3月前
|
数据采集 监控 NoSQL
基于n8n创建自愈式用例库及质量知识图谱
本文分享了如何基于n8n构建自愈型质量管理系统。通过自动化采集缺陷、需求等数据并构建知识图谱,系统能智能分析、自动修复用例库。方案大幅降低了维护耗时与缺陷逃逸率,将测试团队从重复劳动中解放,转向质量策略设计,实现了质量数据的持续流动与优化。
|
2月前
|
前端开发 JavaScript 测试技术
深入Playwright:掌握自定义选择器与定位器技巧
你是否厌倦了为那些缺乏规范属性、动态生成的网页元素编写脆弱的选择器?面对现代前端框架构建的应用,传统的CSS定位方式常常力不从心。本文将深入探讨如何利用Playwright强大的自定义选择器与定位器功能,构建稳定、可读且易于维护的自动化测试,彻底告别因UI细微变动而导致测试用例大面积失效的困境。
|
2月前
|
测试技术 API 开发者
Playwright测试调试技巧:断点、日志与跟踪查看器的应用
本文将分享断点调试、智能日志与跟踪查看器这三个核心技巧,它们构成了解决复杂测试问题的强大工具箱,能帮助你像回放录像一样洞察每一次失败的根源。
|
2月前
|
并行计算 监控 安全
高效 GPU 加速:DeepSeek-R1 系列模型在 llama.cpp 上的生产级部署指南
本文详解如何在RTX 30/40系显卡上,通过llama.cpp高效部署DeepSeek-R1-8B模型。涵盖CUDA镜像选择、GPU卸载调优、显存控制与高可用架构,结合Docker、Prometheus监控及负载均衡,实现低延迟、高吞吐的生产级推理,助力大模型落地应用。
|
2月前
|
人工智能 监控 安全
AI辅助测试体系从零到一:测试新人的安全落地指南
团队想搭AI测试体系却无从下手?中小团队资源有限能否落地?作为实战老兵,我曾用现有资源从0到1搭建体系,将回归效率提升40%。本文分享三步落地法:从精准选点到安全实践,再到流程融合,手把手助你避开常见坑位,让AI真正成为测试提效利器。
|
2月前
|
人工智能 算法 测试技术
AI能否实现APP自动化测试?「墨迹天气」案例完整验证
APP自动化,真的能被AI接住吗?最近,我们用一款真实App——墨迹天气,完成了从“添加”到“删除”城市的全流程自动化测试。这不是脚本拼接的Demo,而是AI测试智能体像真人一样理解意图、规划路径、执行操作,并生成可回溯的完整报告。本次演示直击一个核心问题:AI能否将测试工程师从重复、明确的执行工作中解放出来?结果,或许比你想象的更近一步。

热门文章

最新文章