立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
简介: 蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。

作者:厦门立马耀网络科技有限公司大数据开发工程师 陈宏毅

背景介绍

行业

蝉选是蝉妈妈出品的达人选品服务平台。蝉选秉持“陪伴达人赚到钱”的品牌使命,致力于洞悉达人变现需求和痛点,提供达人选高佣、稳变现、速响应的选品服务。


业务特征

  • 个性化推荐:利用大数据和人工智能算法,根据用户的兴趣和行为提供定制化的产品推荐。
  • 数据驱动:通过分析用户和市场趋势,优化推荐策略,提升用户满意度。
  • 精准营销:帮助商家通过精准的用户画像进行有效的产品推广。
  • 高效搜索:提供强大的搜索功能,帮助用户快速找到所需产品。

产品原有架构痛点

依赖传统搜索方案的向量检索进行相似商品推荐的痛点

  • 性能瓶颈:在处理高维向量时,性能可能不如专用的向量数据库。
  • 存储效率:高维向量的存储效率较低,占用较多磁盘空间。
  • 复杂性:需要额外配置和插件才能支持向量检索。
  • 更新成本:频繁更新向量数据可能导致索引重建,影响性能。
  • 资源消耗:内存和计算资源消耗较大,尤其在大规模数据集上。

Spark 集群原架构的痛点

  • 集群稳定性:需要自行监控和维护集群,可能面临稳定性问题。
  • 性能优化:缺乏类似Fusion的加速技术,可能导致任务执行速度较慢。
  • 运维负担:需要手动管理集群,包括配置、监控和故障排除。
  • 资源利用率:资源分配不够灵活,可能导致资源浪费。
  • 费用问题:即使在空闲时也可能产生费用,导致成本增加。
  • 复杂性:需要配置和管理底层基础设施,增加了复杂性。


为了应对新的业务挑战,蝉妈妈选择与阿里云合作,利用其 Serverless Spark & Milvus,构建了符合业务场景和分析师习惯的工程解决方案。


为什么选择阿里云 Serverless Spark&Milvus

  • 完善的周边服务:提供全面的监控和告警功能,能够实时跟踪任务状态和性能,及时发现并解决问题。
  • 托管弹性伸缩功能:自动根据工作负载调整资源,减少手动干预。
  • 集群稳定性:由云服务商管理,提供高稳定性和可靠性。
  • 弹性资源管理:按需分配资源,避免资源浪费。
  • 按需计费:仅为实际使用的资源付费,降低成本。
  • 快速启动:无需预配置资源,能够快速启动和运行任务。
  • 自动扩展:根据工作负载自动调整资源,提升灵活性。
  • 性能优化:Serverless Spark通过技术如Fusion加速任务执行,提高效率,降低成本;Milvus支持并保证超大规模向量检索的性能。


技术方案设计

架构图

image.png

业务场景介绍

在Serverless Spark中,通过周期性的离线任务,从StarRocks数据库中提取商品数据。这些数据包含商品的基本信息,如商品ID、名称、描述等。接着,使用Serverless Spark的计算能力,调用机器学习模型服务,将商品标题转换为向量表示。生成的向量数据与其他商品信息结合后,批量写入阿里云Milvus向量数据库。Milvus负责高效存储和管理这些向量数据,并支持快速相似性搜索。通过构建数据接口,Milvus中的数据可以对外提供查询服务,用户可以通过该接口输入一个商品或其特征,系统将返回相似商品的列表。这种架构支持大规模、低延迟的相似商品检索,适用于推荐系统、个性化营销等应用场景。


关键服务组件

Serverless Spark

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。

向量检索服务 Milvus 版

阿里云向量检索服务Milvus版是一款云原生、全托管的向量检索引擎,100%兼容开源Milvus,支持自建Milvus集群无缝迁移上云。具备易⽤性、可⽤性、安全性、低成本与⽣态优势,能提供超大规模向量数据的相似性检索服务,广泛应用于多模态检索、RAG、大模型AI等场景。


迁移后的收益

Serverless Spark

  • 性能:离线任务耗时减少40%,核心报表更早产出。
  • 稳定性:任务稳定性显著提高,失败率降低 80%。
  • 运维灵活性:根据业务需求自动调整扩充计算资源。
  • 性价比:真正的按量付费,不使用时没有资源消耗;提供多种资源包选择,进一步降低成本。


Milvus

  • 降本:与传统搜索方案相比,阿里云Milvus 实现向量检索的成本降低了 75%。
  • 提效:作为专业级向量数据库,在处理高维向量时,检索性能显著提升。
  • 业务支持:Milvus 能支持更大规模的数据读取和写入,覆盖了商品范围更广,查询响应速度更快。



后续期待

希望 Serverless Spark 能够全面兼容 Spark Launcher 这一便捷方式提交任务,支持任务无缝迁移至全托管环境。



阿里云 EMR Serverless Spark 版是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。


EMR Serverless Spark 交流钉钉群:58570004119

image.png

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
打赏
0
2
2
1
69
分享
相关文章
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
105 12
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
171 30
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
Serverless MCP 运行时业界首发,函数计算支持阿里云百炼 MCP 服务!阿里云百炼发布业界首个全生命周期 MCP 服务,无需用户管理资源、开发部署、工程运维等工作,5 分钟即可快速搭建一个连接 MCP 服务的 Agent(智能体)。作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力。
164 0
 Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
Serverless + AI 让应用开发更简单,加速应用智能化
Serverless + AI 让应用开发更简单,加速应用智能化
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
212 15
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
海量日志接入 Elasticsearch Serverless 应用降本70%以上
本文将探讨在日志场景下,使用阿里云Elasticsearch Serverless相较于基于ECS自建Elasticsearch集群的成本与性能优势,展示如何通过Serverless架构实现高达 70%以上的成本节约。
243 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等