一夜之间,AI彻底告别“健忘症”!最难考试拿下99%,全网炸锅

简介: ASMR是Supermemory团队推出的革命性AI记忆系统,抛弃向量数据库,首创6维观察者+3路搜索Agent并行推理架构,在最难长期记忆测试LongMemEval中达99%准确率,实现真正“不健忘”的AI。

你有没有过这种体验——

跟AI聊了半天,它转头就忘了你叫什么;上个月刚跟它讨论过的事情,今天再问,它一脸懵;你反复强调自己的喜好,它每次都要重新问一遍……

这种感觉,就像在跟一个患有严重健忘症的人对话。

每次开口,都是初次见面。

但就在今天,这一切被彻底改写了。

一个叫Supermemory的团队,向全世界扔出了一颗“核弹”——超级记忆系统ASMR横空出世,在AI记忆界公认最难的考试LongMemEval中,直接拿下了99%的准确率。

消息一出,X(原推特)热榜瞬间被刷爆。

全网只有四个字:太疯狂了。

AI的“金鱼记忆”,终于被治好了
先说说这个考试有多难。

LongMemEval是目前业内公认最严苛的长期记忆测试,没有之一。它不像普通考试那样只考“你记得昨天说了什么”,而是模拟真实世界中的各种混乱场景:

超11.5万字的对话历史、互相矛盾的信息、分散在多个会话中的零碎事件,还有需要推理时间线的复杂问题……

过去的AI记忆系统,在这里基本都“挂科”。能上80%就算顶尖,绝大多数连及格都够呛。

而ASMR交出的答卷是——99%。

这意味着什么?

意味着它不是“大概记得”,而是几乎零遗忘。意味着在面对海量信息、矛盾表述、时间交错的情况下,它依然能精准抓出正确答案。

有业内人士看完数据后只说了一句话:“AI记忆的难题,可能真的被彻底解决了。”

不靠向量数据库,全靠“AI团队”干活
最让人意外的是,ASMR的技术实现思路,反而非常简单。

它抛弃了传统的向量数据库,抛弃了嵌入模式,完全在内存中运行。

简单来说,它不靠“数学相似度”去猜,而是靠真正的“理解”去检索。

怎么做到的?答案是——派出一支AI小分队。

第一步:3个“观察者”并行阅读

当对话数据进来时,3个观察者Agent同时开工,各自负责不同部分的原始会话。它们不是简单地把内容存下来,而是围绕六个维度进行定向提取:个人信息、偏好、事件、时间线、信息更新、助手信息。

每个被提取出来的事实,都会被“原生存储”,并且标记清楚来自哪段对话。

第二步:3个“搜索者”主动推理

当用户提问时,ASMR不会去查向量数据库。它会再派出3个搜索Agent,各自分工:

一个专搜直接事实和明确陈述; 一个挖掘上下文、社交线索和暗示; 一个负责重建时间线和关系图谱。

3个Agent的结果汇总后,还会提取原文逐字片段进行细节验证。

全程没有关键词匹配,没有数学相似度,靠的是实打实的认知理解。

这还没完。为了应对LongMemEval中五花八门的问题类型,团队又做了两种尝试:

一种是让8个高度专业化的提示词变体并行运行,各司其职,只要有任何一个跑出正确答案就算对——准确率直接拉到98.6%。

另一种是构建12个专家Agent组成的“决策森林”,最后由一个聚合模型综合判断,准确率也高达97.2%。

说白了,ASMR不是靠一个“全能选手”硬扛,而是用一群分工明确的专家协同作战。

但ASMR只是一个开始
如果你以为ASMR只是一个刷榜的实验项目,那就太小看这个团队了。

它背后是一个叫Supermemory的完整记忆引擎——一套面向所有AI应用的记忆与上下文基础设施。

团队在GitHub上写得很直白:

你的AI在对话之间什么都记不住,Supermemory来修。

RAG(检索增强生成)很多人都听过,但记忆和RAG其实是两回事。

RAG不认人——今天给张三的回答,明天李四来问也是一样。而Supermemory会从对话中主动提取事实,追踪变化,处理矛盾,甚至自动遗忘。

举个例子:

你上个月说“我住在北京”,这个月又说“我刚搬到上海”。普通的RAG会把两条信息都丢给大模型,让它自己猜该信哪个。而Supermemory知道后者覆盖了前者,只返回“上海”。

更狠的是“自动遗忘”。你说“我明天有个考试”,等日期过了,这条记忆自动失效,不会变成永久噪音。

一次API调用,延迟约50毫秒,你的Agent就知道对面坐的是谁。

把这个用户画像注入到系统提示词里,AI瞬间从“陌生人模式”切换到“老朋友模式”。

记忆,正在成为AI的基础设施
Supermemory还接了一整套外部数据源——Google Drive、Gmail、Notion、OneDrive、GitHub,全部通过实时Webhook自动同步。文档传上去自动处理,PDF解析、图片OCR、视频转录,零配置,传完就能搜。

对开发者来说,集成成本被压到了最低。npm装一个包,几行代码就能给自己的Agent加上完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK,主流AI开发框架全部有现成封装。

甚至不用写代码也行——Supermemory提供了MCP服务器,一行命令安装,Claude Desktop、Cursor、Windsurf、VS Code直接就能用。

这场仗,才刚刚开始
过去几年,大模型的竞争一直在参数规模、推理速度、上下文窗口长度这些维度上打转。

但一个128K的上下文窗口再大,对话一结束就清空,下次见面还是陌生人。

记忆,才是让AI从“工具”变成“搭档”的最后一块拼图。

当每一个Agent都能记住你是谁、你在做什么、你上次说到哪里,人机交互的体验会发生一次静悄悄的质变。

不是AI突然变聪明了。

而是它终于不再失忆了。

值得一提的是,ASMR将于4月初开源全部代码。

AI记忆的“大航海时代”,正式开启。

相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
装了OpenClaw却不会用?先搞懂这23个AI基础概念
AI已深度融入生活,但盲目上手易踩坑。本文精选23个最常用AI基础概念(如AI、LLM、Token、幻觉、提示词等),用大白话+生活化例子讲透本质,帮你避开误区、省成本、提效率——不求成为专家,但求用得明白。
|
3月前
|
人工智能 自然语言处理 JavaScript
从零开始构建你的第一个Claude Skill:手把手打造AI专属技能
本文手把手教你零基础打造专属Claude Skill:无需复杂后端,会Markdown或基础Python/JS即可。详解SKILL.md规范、大小写陷阱、角色设定、自动化脚本集成与实战调试技巧,助你把Claude从“健忘实习生”升级为精准执行的“领域特种兵”。
|
4月前
|
人工智能 自然语言处理 测试技术
Prompt Engineering 进阶:如何写出让 AI 自动生成高质量测试用例的提示词?
AI赋能测试用例设计,关键在结构化Prompt:需明确角色、业务、技术栈与约束,并融入等价类、状态图等测试方法论;要求表格化/代码化输出,辅以少样本示例和异常场景深挖。本质是将测试经验精准传递给AI。
|
3月前
|
人工智能 开发框架 机器人
OpenClaw到底是什么?一篇文章讲清楚AI智能体这个概念
OpenClaw是一款开源AI智能体工具,让大模型像人一样操作电脑:自动点击、输入、调用浏览器/邮件/命令行等工具,完成跨应用任务(如整理网页数据、生成报表、发邮件)。它代表“能动手”的AI执行者,区别于仅“动嘴”的聊天机器人。当前仍存速度、稳定性与安全挑战,但已初现未来人机协作新范式。
|
3月前
|
人工智能 Linux API
阿里云/本地部署OpenClaw 及Token成本狂降96%:claude-mem与OpenViking开源记忆神器+大模型优化方案分享
OpenClaw在处理长周期、多步骤、多工具任务时,普遍面临两大致命问题:**记忆混乱导致幻觉频发**、**Token爆炸导致成本失控**。传统方案通过无脑拼接历史对话、工具日志、执行记录来维持上下文,导致95%都是冗余信息,不仅让AI逻辑错乱,还让API费用呈指数级上涨。本文详细讲解两款开源神器——claude-mem(单智能体记忆优化)与OpenViking(多智能体上下文管理),通过三层检索、文件系统式记忆、按需加载等工程手段,实现**任务完成率大幅提升、Token成本狂降96%**,同时提供2026年阿里云、MacOS/Linux/Windows11部署OpenClaw流程,以及阿里云
1592 2
|
3月前
|
人工智能 IDE 测试技术
接口文档一丢,AI自动生成测试用例和自动化脚本?
AI IDE + MCP 正重塑软件测试:需求文档→AI自动生成测试用例与自动化脚本→CI自动执行。相比传统人工编写,它大幅提升效率;区别于知识库方案,AI IDE可操作文件、调用API、构建工程。核心前提:需求需结构化、清晰。
|
3月前
|
人工智能 JavaScript 测试技术
browser-use爆火:AI Agent接管浏览器,测试自动化正在被重构
browser-use是火爆GitHub(⭐18.2k)的开源工具,让AI Agent直接操控浏览器完成登录、表单填写、流程执行等任务。它基于Playwright,融合大模型动态决策,推动UI测试从“脚本驱动”迈向“目标驱动”,重塑测试工程师能力边界。