一夜之间,AI彻底告别“健忘症”!最难考试拿下99%,全网炸锅

简介: ASMR是Supermemory团队推出的革命性AI记忆系统,抛弃向量数据库,首创6维观察者+3路搜索Agent并行推理架构,在最难长期记忆测试LongMemEval中达99%准确率,实现真正“不健忘”的AI。

你有没有过这种体验——

跟AI聊了半天,它转头就忘了你叫什么;上个月刚跟它讨论过的事情,今天再问,它一脸懵;你反复强调自己的喜好,它每次都要重新问一遍……

这种感觉,就像在跟一个患有严重健忘症的人对话。

每次开口,都是初次见面。

但就在今天,这一切被彻底改写了。

一个叫Supermemory的团队,向全世界扔出了一颗“核弹”——超级记忆系统ASMR横空出世,在AI记忆界公认最难的考试LongMemEval中,直接拿下了99%的准确率。

消息一出,X(原推特)热榜瞬间被刷爆。

全网只有四个字:太疯狂了。

AI的“金鱼记忆”,终于被治好了
先说说这个考试有多难。

LongMemEval是目前业内公认最严苛的长期记忆测试,没有之一。它不像普通考试那样只考“你记得昨天说了什么”,而是模拟真实世界中的各种混乱场景:

超11.5万字的对话历史、互相矛盾的信息、分散在多个会话中的零碎事件,还有需要推理时间线的复杂问题……

过去的AI记忆系统,在这里基本都“挂科”。能上80%就算顶尖,绝大多数连及格都够呛。

而ASMR交出的答卷是——99%。

这意味着什么?

意味着它不是“大概记得”,而是几乎零遗忘。意味着在面对海量信息、矛盾表述、时间交错的情况下,它依然能精准抓出正确答案。

有业内人士看完数据后只说了一句话:“AI记忆的难题,可能真的被彻底解决了。”

不靠向量数据库,全靠“AI团队”干活
最让人意外的是,ASMR的技术实现思路,反而非常简单。

它抛弃了传统的向量数据库,抛弃了嵌入模式,完全在内存中运行。

简单来说,它不靠“数学相似度”去猜,而是靠真正的“理解”去检索。

怎么做到的?答案是——派出一支AI小分队。

第一步:3个“观察者”并行阅读

当对话数据进来时,3个观察者Agent同时开工,各自负责不同部分的原始会话。它们不是简单地把内容存下来,而是围绕六个维度进行定向提取:个人信息、偏好、事件、时间线、信息更新、助手信息。

每个被提取出来的事实,都会被“原生存储”,并且标记清楚来自哪段对话。

第二步:3个“搜索者”主动推理

当用户提问时,ASMR不会去查向量数据库。它会再派出3个搜索Agent,各自分工:

一个专搜直接事实和明确陈述; 一个挖掘上下文、社交线索和暗示; 一个负责重建时间线和关系图谱。

3个Agent的结果汇总后,还会提取原文逐字片段进行细节验证。

全程没有关键词匹配,没有数学相似度,靠的是实打实的认知理解。

这还没完。为了应对LongMemEval中五花八门的问题类型,团队又做了两种尝试:

一种是让8个高度专业化的提示词变体并行运行,各司其职,只要有任何一个跑出正确答案就算对——准确率直接拉到98.6%。

另一种是构建12个专家Agent组成的“决策森林”,最后由一个聚合模型综合判断,准确率也高达97.2%。

说白了,ASMR不是靠一个“全能选手”硬扛,而是用一群分工明确的专家协同作战。

但ASMR只是一个开始
如果你以为ASMR只是一个刷榜的实验项目,那就太小看这个团队了。

它背后是一个叫Supermemory的完整记忆引擎——一套面向所有AI应用的记忆与上下文基础设施。

团队在GitHub上写得很直白:

你的AI在对话之间什么都记不住,Supermemory来修。

RAG(检索增强生成)很多人都听过,但记忆和RAG其实是两回事。

RAG不认人——今天给张三的回答,明天李四来问也是一样。而Supermemory会从对话中主动提取事实,追踪变化,处理矛盾,甚至自动遗忘。

举个例子:

你上个月说“我住在北京”,这个月又说“我刚搬到上海”。普通的RAG会把两条信息都丢给大模型,让它自己猜该信哪个。而Supermemory知道后者覆盖了前者,只返回“上海”。

更狠的是“自动遗忘”。你说“我明天有个考试”,等日期过了,这条记忆自动失效,不会变成永久噪音。

一次API调用,延迟约50毫秒,你的Agent就知道对面坐的是谁。

把这个用户画像注入到系统提示词里,AI瞬间从“陌生人模式”切换到“老朋友模式”。

记忆,正在成为AI的基础设施
Supermemory还接了一整套外部数据源——Google Drive、Gmail、Notion、OneDrive、GitHub,全部通过实时Webhook自动同步。文档传上去自动处理,PDF解析、图片OCR、视频转录,零配置,传完就能搜。

对开发者来说,集成成本被压到了最低。npm装一个包,几行代码就能给自己的Agent加上完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK,主流AI开发框架全部有现成封装。

甚至不用写代码也行——Supermemory提供了MCP服务器,一行命令安装,Claude Desktop、Cursor、Windsurf、VS Code直接就能用。

这场仗,才刚刚开始
过去几年,大模型的竞争一直在参数规模、推理速度、上下文窗口长度这些维度上打转。

但一个128K的上下文窗口再大,对话一结束就清空,下次见面还是陌生人。

记忆,才是让AI从“工具”变成“搭档”的最后一块拼图。

当每一个Agent都能记住你是谁、你在做什么、你上次说到哪里,人机交互的体验会发生一次静悄悄的质变。

不是AI突然变聪明了。

而是它终于不再失忆了。

值得一提的是,ASMR将于4月初开源全部代码。

AI记忆的“大航海时代”,正式开启。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
装了OpenClaw却不会用?先搞懂这23个AI基础概念
AI已深度融入生活,但盲目上手易踩坑。本文精选23个最常用AI基础概念(如AI、LLM、Token、幻觉、提示词等),用大白话+生活化例子讲透本质,帮你避开误区、省成本、提效率——不求成为专家,但求用得明白。
|
2月前
|
人工智能 开发框架 机器人
OpenClaw到底是什么?一篇文章讲清楚AI智能体这个概念
OpenClaw是一款开源AI智能体工具,让大模型像人一样操作电脑:自动点击、输入、调用浏览器/邮件/命令行等工具,完成跨应用任务(如整理网页数据、生成报表、发邮件)。它代表“能动手”的AI执行者,区别于仅“动嘴”的聊天机器人。当前仍存速度、稳定性与安全挑战,但已初现未来人机协作新范式。
|
2月前
|
人工智能 自然语言处理 JavaScript
从零开始构建你的第一个Claude Skill:手把手打造AI专属技能
本文手把手教你零基础打造专属Claude Skill:无需复杂后端,会Markdown或基础Python/JS即可。详解SKILL.md规范、大小写陷阱、角色设定、自动化脚本集成与实战调试技巧,助你把Claude从“健忘实习生”升级为精准执行的“领域特种兵”。
|
3月前
|
人工智能 自然语言处理 测试技术
Prompt Engineering 进阶:如何写出让 AI 自动生成高质量测试用例的提示词?
AI赋能测试用例设计,关键在结构化Prompt:需明确角色、业务、技术栈与约束,并融入等价类、状态图等测试方法论;要求表格化/代码化输出,辅以少样本示例和异常场景深挖。本质是将测试经验精准传递给AI。
|
1月前
|
人工智能 算法 测试技术
我做了个Skill,专门用来自动生成测试用例:一个测试Agent的诞生
本文揭秘测试设计新范式:AI智能体如何将人工写用例(耗时数小时)升级为3分钟生成高质量XMind用例。涵盖瓶颈分析、方法论结构化、五维核心机制(多模态理解、质量预审、记忆进化等)、实测对比及团队落地路径,预示测试工程师正从“手写者”蜕变为“智能体设计师”。
|
3月前
|
JSON 文字识别 API
百度文心开源0.9B参数 PaddleOCR-VL-1.5,全球首个支持异形框定位的文档解析模型!
百度文心开源新一代文档解析模型PaddleOCR-VL-1.5:仅0.9B参数,在OmniDocBench v1.5达94.5%精度,全球首个支持异形框定位,精准识别倾斜、弯折、反光等“歪文档”,集成印章识别、多语种(含藏语/孟加拉语)及古籍解析能力,推理速度超MinerU2.5达43%。(239字)
998 2
|
2月前
|
人工智能 IDE 测试技术
接口文档一丢,AI自动生成测试用例和自动化脚本?
AI IDE + MCP 正重塑软件测试:需求文档→AI自动生成测试用例与自动化脚本→CI自动执行。相比传统人工编写,它大幅提升效率;区别于知识库方案,AI IDE可操作文件、调用API、构建工程。核心前提:需求需结构化、清晰。
|
2月前
|
人工智能 JavaScript 测试技术
browser-use爆火:AI Agent接管浏览器,测试自动化正在被重构
browser-use是火爆GitHub(⭐18.2k)的开源工具,让AI Agent直接操控浏览器完成登录、表单填写、流程执行等任务。它基于Playwright,融合大模型动态决策,推动UI测试从“脚本驱动”迈向“目标驱动”,重塑测试工程师能力边界。