揭秘千问 APP 千万级 AI 订单背后的记忆存储实践

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 2026年春节,千问 APP “春节请客计划” 9 小时破 1000 万单,依赖 Tablestore 构建的一站式记忆系统:支持短期/长期记忆统一管理、毫秒级读写、Serverless 弹性伸缩、多模态数据融合及原生向量检索,实现数十亿条记忆的高效存储与实时流转。

2026 年春节,千问 APP“春节请客计划”上线 9 小时,订单量突破 1000 万单,“帮我买”指令被调用超 3000 万次。用户点奶茶、送祝福的每一次交互,背后都是一套记忆系统在高速运转——记住用户偏好、关联订单信息、同步配送状态。

流量洪峰之下,基于 Tablestore 的记忆存储系统成为关键支撑:Serverless 弹性伸缩平稳承接百万级QPS,读写延迟稳定在毫秒级,确保用户“说买就买”的即时体验。数十亿条记忆数据实时流转,让千万次请客互动丝滑落地,零卡顿、零遗漏。

没有这套记忆系统,就没有这场全民请客的狂欢。


下面我们展开说说记忆系统如何实现的。

千问 APP 支持日常对话、知识问答、外卖点餐等多种 Agent 场景。

记忆能力对这些场景至关重要——没有记忆的 Agent 每次对话都像初次见面,无法延续上下文、不了解用户偏好、也做不到个性化推荐。有了记忆,Agent 才能在多轮对话中保持连贯,跨会话积累对用户的了解,真正从“能用”变成“好用”。

真正好用的记忆系统,应该具备两种能力:

  • 短期记忆:当前会话的多轮对话上下文、工具调用的中间状态。
  • 长期记忆:从历史对话中提炼出的摘要、用户长期积累的偏好画像(如口味、风格、常用地址),以及用于语义检索的向量嵌入。

为了更“好用”的体验,千问构建了一套一站式记忆存储系统,整体架构分三层:

  • Agent 应用层:对话理解、任务编排、多场景调度等。
  • 记忆管理层:负责记忆的写入、检索、摘要提炼与过期淘汰。
  • 记忆存储层:底层持久化引擎,同时提供高性能读写和向量召回。


Agent 的记忆存储远不止“写进去、读出来”。随着用户规模和场景复杂度增长,挑战接踵而至:

  • 长期记忆自动抽取 —— 短期上下文会过期丢弃,但有价值的信息要自动沉淀为长期记忆。两类记忆的生命周期不同,需要在同一套系统中共存管理。
  • 多模态数据统一管理 —— 记忆数据包括纯文本、结构化属性(JSON)、向量嵌入(用于语义召回),如果每种数据拆一套存储,运维复杂度会很高。
  • 海量低成本持久存储 —— 每个用户的每轮对话都会产生记忆数据,日积月累规模可达数十亿条
  • 毫秒级稳定延迟 —— 记忆读写在每轮对话的关键路径上,延迟直接影响用户体感。而且不能因为数据量变大就劣化,P99 延迟要稳得住。
  • 流量弹性 —— 业务峰谷波动明显,活动期间流量可能瞬间飙升数十倍,存储层需要自动跟随伸缩。


当记忆规模膨胀至数十亿条,数据如何存储、检索、扩展,成了千问必须解决的问题。Tablestore 没有选择“堆砌功能”,而是用一套开箱即用的方案,把记忆管理的复杂流程变成了“自动运转”的简单操作。

让长期记忆自动沉淀

Tablestore 进一步封装了开箱即用的记忆存储解决方案,提供短期/长期记忆统一管理能力,内置了短期记忆到长期记忆的自动抽取流程,开发者无需自行编排,降低业务接入门槛和开发成本。

记忆检索:像查字典一样简单

Tablestore 支持在宽表上直接开通多元索引,无需部署独立的搜索引擎,可以实现通过向量检索召回记忆片段、根据关键词全文检索对话内容以及多条件组合查询等能力。

装下数十亿记忆:“一个库”即可搞定

Tablestore 底层是分布式引擎,存储和计算分离,数据按分区键自动分片。单表可以存储数万亿甚至更高量级的行,不需要手动分库分表。宽表模型本身支持灵活的列定义,文本、结构化属性和向量嵌入可以作为不同列存在同一行中。也就是说,一个用户的短期上下文、长期画像、语义向量可以存在同一张表里,查询时一次读取就能拿到,不需要跨多个系统做 join。这让整体架构保持简洁,也省去了维护额外向量数据库的成本。

数据量再大,延迟也不“掉链子”

对于单行读和单行写操作,Tablestore 的延迟在个位数毫秒级别,这一点不会因为数据量增长到数十亿而明显劣化——因为底层基于 LSM-Tree 存储引擎,数据按主键有序存储、分层压缩,读路径上通过 bloom filter 和 block cache 加速,写路径上顺序追加。对记忆场景来说,最常见的操作就是“根据 user_id + session_id 读写某条记忆”,这正好命中单行读的最优路径。

流量来了自动“撑伞”,流量走了自动“收摊”

Tablestore 是 Serverless 架构,按实际吞吐和存储量计费,不需要预留资源。流量上来的时候自动扩分区、扩资源,流量下去之后自动收缩。千问 APP 推广活动期间,峰值流量飙升数十倍,存储层全程自动弹性承接,业务侧不需要做任何扩容操作。


多业务验证的一站式记忆存储方案

Tablestore 凭借分布式引擎、原生向量检索、Serverless 弹性和全托管免运维的组合优势,是 Agent 记忆场景的理想底座,在千问的记忆场景中也得到了充分验证。记忆存储是 Tablestore 的典型场景之一,除了千问之外,还支撑了夸克、钉钉等关键业务。

欢迎开发者前往阿里云官网申请试用。还可扫描下方二维码,通过查看 hermes-tablestore-memory 插件将 Hermes Agent 接入 Tablestore Memory 服务,为智能体构建云端持久化、跨会话和跨 Agent 共享的语义记忆。



链接:https://help.aliyun.com/zh/tablestore/use-cases/implementation-of-tablestore-memory-storage-in-hermes


相关文章
|
4天前
|
弹性计算 人工智能 运维
阿里云极速部署 OpenClaw/Hermes Agent 集成Skill 保姆级教程
OpenClaw(原Clawdbot,曾用名Moltbot)2026年凭借轻量化架构、高适配性及强大的自动化能力,成为阿里云生态下最热门的AI自动化代理工具,其秒级部署方案彻底打破开源工具的技术门槛,无需复杂环境配置,零基础新手也能轻松上手。OpenClaw本身仅提供核心编排框架,而Skills作为其“能力扩展插件”,能赋予它网页浏览、邮件管理、数据统计、多平台联动等实操能力,二者结合可快速搭建专属智能助手,适配个人办公、企业运维、AI创意生产等多场景。
159 8
|
1月前
|
Linux API 云计算
零基础保姆级|阿里云计算巢+MacOS/Linux/Windows11部署OpenClaw 技能集成+大模型配置全流程
2026年,AI自动化框架OpenClaw(原Clawdbot)凭借云端+本地双部署、多模型兼容与Skills插件化扩展能力,成为个人与团队实现复杂任务自动化的核心工具。阿里云计算巢提供OpenClaw官方一键部署方案,无需手动配置环境,5分钟即可完成云端部署;本地则支持MacOS、Linux、Windows11全系统部署,搭配阿里云千问、免费Coding Plan大模型API,再通过Skills扩展能力,可实现从信息查询、文件处理到流程自动化的全场景能力。
999 15
|
4天前
|
前端开发 API 数据库
优化边缘情况:用 ​D​М‌X​Α‌РΙ 打折接入 gpt-image-2 的长连接方案
截至2026年4月23日,GPT-Image-2已正式上线API,标志视觉能力从“创意工具”跃升为可编排、可审计、可集成的生产级基础设施,赋能电商、农业、工业等多领域自动化工作流。(239字)
|
24天前
|
存储 人工智能 运维
Tair 短期记忆架构实践:淘宝闪购 AI Agent 的秒级响应记忆系统
本文介绍淘宝闪购与千问合作的“一句话点外卖”项目中,Tair如何作为AI Agent短期记忆层核心:通过List/Hash混合数据模型、会话级分布式锁、多线程内核与弹性扩缩容,实现毫秒级低延迟、高并发、强一致的记忆管理,支撑30秒极速下单。
|
26天前
|
人工智能 自然语言处理 前端开发
【SpringAIAlibaba新手村系列】(9)Text to Image 文本生成图像技术
本文介绍 Spring AI 中的文生图能力,围绕 ImageModel、ImagePrompt 与阿里云百炼图像模型展开,演示如何根据文字描述生成图片链接,并结合 Prompt 编写技巧与参数配置,帮助开发者提升生成效果与落地能力。
289 8
|
23天前
|
机器学习/深度学习 分布式计算 搜索推荐
PAI-Rec 召回引擎:构建高性能推荐系统的核心引擎
PAI-Rec是阿里云智能推荐平台的核心召回引擎,经阿里大规模场景验证。支持多路召回融合(U2I/I2I/向量/随机)、召回即过滤、毫秒级实时更新与分布式弹性架构,开箱即用,助力企业构建毫秒级、高精度、强实时的推荐系统。
190 9
|
1月前
|
存储 缓存 安全
深入理解OpenClaw技术架构与实现原理(下)
本文是《深入理解OpenClaw技术架构与实现原理(上)》的续篇,主要讲述从沙箱隔离到企业级智能体演进。
深入理解OpenClaw技术架构与实现原理(下)
|
24天前
|
存储 人工智能 测试技术
OpenClaw构建自我迭代AI助手笔记
假期花了3天深度体验OpenClaw,尝试构建可自我迭代的银行客户经理助手的场景,验证通用智能体框架的可用性。 重点只验证这个新形态带来的变化,暂未仔细核实每个测试场景的准确性。 体验感触:通用智能体的迭代优化,本质是在模型能力基础上,针对Context能力的强优化。
OpenClaw构建自我迭代AI助手笔记