真实案例复盘:从“三套烟囱”到 All in ES,这家企业如何砍掉 40%运维成本

简介: 某泛娱乐平台面临搜索架构复杂、成本高企难题,通过阿里云Elasticsearch实现日志、搜索、向量一体化重构。借助Serverless化与混合存储,成本降60%,运维统一,查询效率倍增,验证了“All in ES”极简架构在AI时代的高效与可扩展性。

在做搜索技术架构咨询时,我们经常听到一句话:“我也知道业务系统复杂,但不知道怎么简化架构部署?”

今天,我们想聊聊 “某知名互联网泛娱乐视觉平台 A”(以下简称 A 公司)的搜索架构演进故事。他们的云上迁移经历,是无数正在为“技术栈碎片化”与"AI搜索架构改造"头疼的企业的真实写照。


第一阶段:为了业务的“快”,他们建了三根烟囱

一年前,A 公司的技术架构负责人老李面临着极大的压力。随着原先的检索业务引入全量日志审计的运维管理,再到接入大模型 RAG(检索增强生成),他们的架构变成了典型的“拼凑型”:

通用搜索业务素材中台、视频/表情包关键词检索,涉及大规模用户、话题及活动信息。跑在开源ES集群上。

日志检索业务为了合规存储海量 Access Log,采购了独立的日志服务。App 行为日志、服务端系统日志,用于性能监控与运营决策。为了省钱又把部分老日志导到了 对象存储里,查询极其不便。

向量检索业务基于视觉特征的相似图片检索、基于用户画像的智能推荐(如相似滤镜、模板推荐)。为了做 RAG 和猜你喜欢,又不得不单独搭建了一套 开源 Milvus。

老李的痛点非常具体:

“半夜烧钱”A 公司的流量有明显的潮汐效应。每天晚上 8 点到 12 点是日志写入洪峰,但凌晨 2 点到早上 8 点流量极低。为了抗住那 4 小时的峰值,他们必须按最高水位购买日志资源。结果就是:每天有 16 个小时,昂贵的计算资源在空转。突发流量导致的扩容压力与存储成本不成正比。

“胶水代码”在做 RAG 时,开发同学需要在代码里先查 Milvus 拿 ID,再回查 ES 拿文本。不仅代码难维护,一旦出现数据不一致(比如文章删了,向量还在),用户就会点进 404 页面,投诉率飙升。

“三根烟囱”:多种搜索能力隔离分开,开发与运维成本极高,难以支持复杂的跨模态检索。

“蜗行牛步”全量同步耗时长,大数据量下的实时更新与索引重建效率低下。


第二阶段:做减法,拥抱 All in ES

在与阿里云AI搜索专家团队深聊后,A 公司决定进行一次彻底技术“断舍离”,将AI搜索所需的多种技术栈统一收敛到阿里云 Elasticsearch 上。

1. 日志场景:把“固定资产”变成“电费单”

A 公司首先改造的是最烧钱的日志系统。他们没有继续购买庞大的自建 ES 节点,而是接入了阿里云 ES 的 高性能写入托管服务 Indexing Service 和 混合存储服务 OpenStore。

变化前:为了抗峰值,常驻 20 台 8C32G 的机器。凌晨流量跌到谷底时,这 20 台机器依然在计费。

变化后:彻底 Serverless 化。晚高峰流量来了,云端自动扩容扛压;凌晨流量没了,计费几乎归零。存储方面,数据自动沉降到 OpenStore(对象存储介质),成本直接对其归档存储。

老李的反馈:“以前是养车,不管开不开都得付折旧和保险;现在是打车,跑多少付多少。单这一项,日志账单降了 60%。

2. 向量场景:删掉胶水代码,回归原生

解决了日志,A 公司开始动刀向量搜索。他们利用阿里云 ES 内核级强化的混合向量引擎,替代了独立的向量库。

变化前:应用 -> 查向量库 -> 拿 ID -> 查 ES -> 应用层排序。延迟 200ms+。

变化后:应用 -> 阿里云 ES (混合检索 API) -> 返回结果。

由于阿里云 ES 全自研云原生引擎 FalconSeek 在内核层引入了 SIMD 指令集加速和 HNSW 算法优化,在千万级数据量下,性能完全满足 A 公司的需求。更重要的是,他们终于可以用一个 DSL 语句同时搞定“语义搜索 + 关键词匹配 + 边时间过滤边检索”。

老李的反馈:“架构图上少了一个框,代码里少了几百行胶水逻辑,开发同学终于不用在两个库之间修数据一致性的 Bug 了。”


为什么选择 All in ES?因为“统一”本身就是生产力

A 公司的故事并非孤例。当他们将日志、搜索、向量收敛到阿里云 Elasticsearch 这一套技术栈上时,发生的不仅仅是成本的降低:

系统架构优化:

1. 极致的计算资源弹性(Serverless): 对于日志这种具有明显“峰谷效应”的数据,传统的预置机器模式注定是浪费。阿里云 ES 的 Indexing Service 让算力像水一样流动,“用时付费,不用免费”,这才是云原生该有的样子。

2. 运维标准的统一: 现在,A 公司的运维团队只需要精通 ES 这一门手艺。无论是查业务慢查询,还是做日志分析,亦或是管理向量索引,都在同一个控制台,遵循同一套安全标准(RBAC/VPC),看同一套监控大盘。

3. 数据价值的闭环: 日志数据进来,清洗后直接可以用于业务分析;业务数据进来,直接生成向量用于推荐。数据在同一个生态内流转,没有中间商赚差价。

日志检索增强

在 A 公司中广泛使用的日志检索,采用阿里云 Elasticsearch 企业版以下方面进行全面优化。

极致写入优化 - Indexing service 读写分离,综合写入成本降低 60%

  • 高性能:专业级写入优化,多自研特性加持(物理复制,定向路由等)
  • 高稳定:多集群冗余备份,秒级切换
  • 低成本:写入资源,存储大小及介质等优化
  • 弹性扩展:写入资源由云端后台调配和管理,以应对流量波动
  • 免运维:无须关注写入资源和写入压力, 极大降低集群运维成本

存算分离优化 - OpenStore 混合存储架构,存储成本降低 60% 以上

  • 采用存算分离架构,降低数据冗余存储
  • 采用对象存储降低存储成本
  • 多级缓存及并发查询保证查询性

专业级查询优化:

  • 针对日志场景的典型查询 case 进行深度优化,提高用户查询性能, 如 bkd 查询优化等
  • 贴近用户业务,针对用户使用过程中的查询问题进行定制优化,如在支持 A 客户中遇到的 cardinality 开源缺陷导致的查询性能问题等。

向量索引调优:

向量索引在 AI 搜索场景中越来越重要,A 公司为提高性能,降低整体成本,充分采用了阿里云 ES 的若干优化手段。成功的将成本降低一倍以上,查询性能提升数倍以上:

  • 自研 FalconSeek 云原生索引应用阿里云最新发布全自研云原生C++内核引擎, 对文本检索与向量检索性能提升,向量性能进一步提升40%以上。 使用FalconSeek的Filter-Knn特性,性能提升最多4倍。
  • 执行 Force Merge存量数据定期执行 Force Merge,性能提升5倍以上。
  • 原文排除向量字段在写入的 source 中排除向量字段,存储空间节约1倍以上。
  • 混合搜索:采用 RRF(Reciprocal Rank Fusion)算法或自定义线性权重,将向量相似度得分与 BM25 文本得分进行加权融合,以兼顾检索的精确性与泛化性。


成本效能对比与选型建议

根据 A 公司迁移阿里云的测算分析,企业在构建多场景 AI 搜索时,可重点关注以下成本指标:

维度

建议方案

价值产出

计算资源

自研 FalconSeek 引擎应用

选用计算型 ecs.g8i 或 r8i 系列

提升向量运算(HNSW 等算法)的吞吐量

存储资源

OpenStore 存算分离架构

解决日志/冷数据存储高成本痛点

写入性能

Indexing Service 高写入服务,

开启物理复制(Physical Replication)

降低高并发写入时的 CPU 占用

运维效率

统一公用集群与素材中台集群

减少 20% 以上的碎片化人力投入

 

总结:One Stack 一站式搜索, 简单架构是最好的架构

回看 A 公司的搜索技术演进之路,其实就是一条从“做加法”到“做减法”的路。

对于架构师:你的系统拓扑图变清晰了,数据链路变短了,系统稳定性变强了。

对于运维:只要精通 ES 一门产品技术手艺,就能搞定全公司的核心数据检索全链路。

对于老板:TCO(总拥有成本)显著下降,同时获得了企业级的安全合规保障。

不要让复杂的工具链拖累你的业务创新的速度。

从今天开始,参考 A 公司的路径,重新审视你的架构。尝试阿里云 Elasticsearch 企业版,体验“All in ES”带来的极简与高效。


更多详情:

阿里云 Elasticsearch官网:https://www.aliyun.com/product/bigdata/elasticsearch

阿里云 AI搜索开放平台https://help.aliyun.com/zh/open-search/search-platform

阿里云 Elasticsearch Serverless 官网https://www.aliyun.com/product/es/es-serverless

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
2月前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
1501 89
|
20天前
|
人工智能 自然语言处理 API
AI应用开发-003-Coze平台
智能体是具备感知、决策与行动能力的AI系统,由大语言模型、记忆、规划、工具使用和行动五大核心构成。通过Coze平台可零代码搭建智能体,结合插件、知识库与工作流,实现个性化AI应用,广泛应用于客服、助理、开发等场景。
261 2
AI应用开发-003-Coze平台
|
19天前
|
数据采集 监控 数据可视化
快速上手:LangChain + AgentRun 浏览器沙箱极简集成指南
AgentRun Browser Sandbox 是基于云原生函数计算的浏览器沙箱服务,为 AI Agent 提供安全、免运维的浏览器环境。通过 Serverless 架构与 CDP 协议支持,实现网页抓取、自动化操作等能力,并结合 VNC 实时可视化,助力大模型“上网”交互。
365 43
|
17天前
|
存储 缓存 人工智能
CodeGenius Memory:构建面向代码生成的可控上下文系统
本次 Memory 系统重构是一次面向 AI Agent 未来演进的上下文工程升级——通过结构化、压缩与抽象机制,让模型在有限上下文预算下更高效地维持任务理解、目标对齐与推理连贯性。
CodeGenius Memory:构建面向代码生成的可控上下文系统
|
3月前
|
存储 人工智能 Cloud Native
【2025云栖大会】AI原生搜索引擎:Elasticsearch 换“芯”
9月26日,云栖大会AI搜索与向量引擎分论坛上,阿里云智能集团技术专家 魏子珺 和爱橙科技技术专家 周文喆,详细阐释了 “AI 原生搜索引擎:Elasticsearch 换芯” 技术主题,重点围绕 AI 原生搜索内核增强技术的升级与替换。通过核心能力重构,让 Elasticsearch 在 AI 原生时代具备更强的多模态理解、自然语言处理以及深度任务执行能力,为搜索场景带来性能、智能化与可扩展性的大幅提升。
407 0
|
20天前
|
人工智能 前端开发 Java
关于Agent框架,豆包,DeepSeek、Manus都选择了它
2025年被视为Agent元年,通过向Manus、豆包、DeepSeek提问“编程框架第一性原理”,发现三者不约而同推荐阿里巴巴开源的AgentScope。
277 2
关于Agent框架,豆包,DeepSeek、Manus都选择了它
|
6天前
|
算法 搜索推荐 Serverless
为什么 ES 的搜索结果只到 10,000?强制“数清楚”的代价有多大
Elasticsearch 7.x后默认返回10,000总数,实为Block-Max WAND算法的性能优化——跳过低分文档块以提升查询速度。强行开启`track_total_hits:true`将禁用该优化,导致CPU飙升、延迟激增。本文深入Lucene底层,解析其原理、陷阱与治理方案。
174 1
|
16天前
|
存储 弹性计算 缓存
阿里云服务器选型攻略:实例规格、配置、云盘、带宽等配置选择策略参考
对于初次接触云服务器的企业而言,如何精准挑选云服务器的实例规格、配置、云盘、带宽等配置,往往是新手用户比较困惑的问题。有些用户由于缺乏相关经验,在选购时常常犹豫不决,既担心选错满足不了业务运行需求,又忧虑配置过高造成资源浪费。本文为大家解析在选购阿里云服务器过程中关于实例规格、配置、云盘、带宽等配置的选择策略,仅供参考。
|
23天前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
378 38
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现

热门文章

最新文章