带你读《Elastic Stack 实战手册》之73:——4.1.5.Elasticsearch在搜索引擎构建中的实践 (下)

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 带你读《Elastic Stack 实战手册》之73:——4.1.5.Elasticsearch在搜索引擎构建中的实践 (下)

《Elastic Stack 实战手册》——四、应用实践——4.1 企业搜索应用场景 ——4.1.5.Elasticsearch在搜索引擎构建中的实践 (上) https://developer.aliyun.com/article/1226299



业务模板

 

1、背景:针对批量部署及其他的数据使用需要,会存在很多公用的模板和脚本,Elasticsearch 中的版本控制等较差,随着时间的推移会产生很多因为版本不同而带来的结果差异

2、实现:我们维护了包括索引模板、搜索模板、各类 ingest processor 和 script 等的中央仓库,统一进行维护和升级

3、优势:统一管理各类公用配置保证所有集群的配置保持一致

4、劣势:统一的基础配置需要各集群叠加个性化、高优先级配置进行配置覆盖,才能满足不同集群中个性化的数据需要

 

统一数据处理算子

 

1、背景:不同数据结构大致一致,仅存在少量不同字段,但是每个业务维护自己的召回、排序服务可能会带来大量的资源浪费

2、实现:统一基础数据模板、召回、排序服务,配合个性化数据结构、召回排序逻辑

3、优势:对于基础的,大体相似的逻辑进行公共抽象、统一维护,减少了服务的开发、迭代的资源需求,通过各业务方个性化的数据、策略调整,满足不同业务方个性化的数据需求

4、劣势:通用算子的修改升级可能会横向影响多个业务的使用,加大了数据质量和测试的工作量


实际案例

 

本节主要阐述和 Elasticsearch 使用相关的案例,其他和搜索等业务相关的内容略去。

 

集群升级

 

1、背景:某些使用场景中,某些版本的 Elasticsearch 存在瓶颈,制约了系统构建、使用和维护效率。Elasticsearch 大版本升级之后,某些功能的升级可以减少我们平时使用的代价,提升数据存取的性能,综合考虑之下决定对某些集群进行升级。

2、操作目标:

l 目标集群相关联的各业务接入系统的升级

l 目标集群相关的监控、数据迁移等支持系统的升级

l 目标集群中部署的各类业务插件

3、环境准备:

l 集群接入方梳理

l 集群使用方式梳理

l 集群升级影响范围评估

l 调用关系梳理

4、迁移步骤:

l 现有数据备份

l 对应配置、插件等升级

l 新集群规划

l 新集群初始化

l 现有数据迁移

l 数据双写

l 数据校验

l 服务灰度、蓝绿发布

l 流量部分切换,使用状态监控

l 流量完整切换,旧集群下线

5、注意点:

l 数据备份及双写:在不影响线上使用的前提下保证数据的完整性,在数据切换之后保留一段时间数据双写等流程,以免因为各种问题造成的数据异常,需要进行回滚之类的操作

l 流量逐步切换:在新索引构建完成之后,可以逐步将线上流量切到新索引(集群)并保留旧索引一段时间,同时要严格监控和测试线上服务的表现,在完全可靠之前要随时做好切回旧索引的准备

l 数据质量监控:新上线的索引(集群)可能存在一些短时间内无法发觉的数据异常,迁移之后的一段时间中可以考虑加入包括数据比较、数据分布报表等在内的数据监控,以保证新索引的数据质量

l 数据备份的保存:数据通过 snapshot 或者其他方式导出的文件,可以考虑多保留几个滚动周期或者直接保存在文件系统等冷存储,用来应对后续可能的数据恢复、校验、审计等需求

 

节点替换大致流程如图所示


image.png

打分插件开发

 

1、背景:某些使用场景中,某些 Elasticsearch 的召回中需要嵌入很复杂的算分过滤公式,每次通过传入script 驱动 Elasticsearch 进行得分计算会严重拖慢 Elasticsearch 的运算效率。为此,我们权衡了内置打分插件、外置重排服务等多个解决方案之后,选择了自研打分插件的方式进行统一处理。

2操作目标:

l 所有业务集群

l 所有业务召回服务

3、环境准备:

l 集群负载监控

l 分数调整公式梳理

l 算分插件实现方式调研

4、实现步骤:

l 对应算分插件开发

l 相关服务召回逻辑升级

l 测试集群部署

l 数据结果交叉对比

5、注意点:

l 数据测试:搜索类的结果不同于普通业务系统是通过条件过滤,而是依靠打分进行召回、排序等,所以它的结果可能不是孤独的结果集,这里需要测试同学深入的理解算分、过滤逻辑,构建专门的测试脚本进行测试

l 结果运营:由于结果的计算是通过柔性算分来实现的,需要产品同学在对比现存脚本输出的结果和新的插件输出的结果,人工评价结果的优劣,以便未来更好的迭代运算结果


image.png


小结

 

本节就一个搜索引擎类项目的使用场景中,对 Elasticsearch 的部署、使用等方面进行了简要描述,并就几个真实的使用场景进行了分析和讨论,希望可以在读者遇到类似的使用场景时带来些参考。

 

创作人简介:

死敌wen,十余年 IT 老兵,从售前做到运维,从后端做到 HR 和猎头,Hands on 过几乎

IT 生命周期的整个过程,不说样样精通,只希望能和不同岗位的同学尽可能站在一个Baseline上进行沟通和交流。希望能通过自己的一点努力,给更多的同学带来一些积极的影响,足矣。

博客:https://blog.csdn.net/weixin_40601534

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
人工智能 运维 自然语言处理
如何在 Elasticsearch 中构建你的智能 AI 助手?
随着微服务、容器化和云原生架构的发展,系统日志量呈指数增长。传统人工排查和固定规则告警方式已难以应对,导致日志查不准、异常发现慢等问题,影响系统稳定性和运维效率。本文介绍如何基于 Elasticsearch 构建具备自然语言理解、异常检测和安全威胁识别能力的智能运维 AI 助手,帮助将 Elasticsearch 从“日志仓库”升级为“智能决策中枢”,提升运维智能化水平与操作效率。
|
5月前
|
存储 机器学习/深度学习 人工智能
使用 LangChain + Higress + Elasticsearch 构建 RAG 应用
本文介绍了如何利用LangChain、Higress和Elasticsearch快速构建RAG(检索增强生成)应用,实现企业知识的智能检索与问答。首先通过LangChain解析Markdown文档并写入Elasticsearch,接着部署Higress AI网关并配置ai-search插件以整合私有知识库与在线搜索功能。最后,通过实际案例展示了RAG查询流程及结果更新机制,确保内容准确性和时效性。文章还提供了相关参考资料以便进一步学习。
549 38
|
12月前
|
存储 运维 监控
超越传统模型:从零开始构建高效的日志分析平台——基于Elasticsearch的实战指南
【10月更文挑战第8天】随着互联网应用和微服务架构的普及,系统产生的日志数据量日益增长。有效地收集、存储、检索和分析这些日志对于监控系统健康状态、快速定位问题以及优化性能至关重要。Elasticsearch 作为一种分布式的搜索和分析引擎,以其强大的全文检索能力和实时数据分析能力成为日志处理的理想选择。
718 6
|
6月前
|
人工智能 自然语言处理 运维
让搜索引擎“更懂你”:AI × Elasticsearch MCP Server 开源实战
本文介绍基于Model Context Protocol (MCP)标准的Elasticsearch MCP Server,它为AI助手(如Claude、Cursor等)提供与Elasticsearch数据源交互的能力。文章涵盖MCP概念、Elasticsearch MCP Server的功能特性及实际应用场景,例如数据探索、开发辅助。通过自然语言处理,用户无需掌握复杂查询语法即可操作Elasticsearch,显著降低使用门槛并提升效率。项目开源地址:<https://github.com/awesimon/elasticsearch-mcp>,欢迎体验与反馈。
1507 1
|
9月前
|
存储 运维 监控
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
中信银行信用卡中心每日新增日志数据 140 亿条(80TB),全量归档日志量超 40PB,早期基于 Elasticsearch 构建的日志云平台,面临存储成本高、实时写入性能差、文本检索慢以及日志分析能力不足等问题。因此使用 Apache Doris 替换 Elasticsearch,实现资源投入降低 50%、查询速度提升 2~4 倍,同时显著提高了运维效率。
377 3
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
|
10月前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案
537 3
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
|
10月前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
503 2
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
9月前
|
人工智能 自然语言处理 搜索推荐
云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用
本文介绍了构建基于Elasticsearch的企业级AI搜索应用,涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源(如Elasticsearch)引擎,提供高性能检索服务,支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点:精准结果、语义理解、高性能引擎,并展示了架构升级和典型应用场景,包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分,详细演示了如何使用阿里云ES搭建AI语义搜索Demo,涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤,同时介绍了相关的计费模式。
240 3
|
9月前
|
人工智能 算法 API
构建基于 Elasticsearch 的企业级 AI 搜索应用
本文介绍了基于Elasticsearch构建企业级AI搜索应用的方案,重点讲解了RAG(检索增强生成)架构的实现。通过阿里云上的Elasticsearch AI搜索平台,简化了知识库文档抽取、文本切片等复杂流程,并结合稠密和稀疏向量的混合搜索技术,提升了召回和排序的准确性。此外,还探讨了Elastic的向量数据库优化措施及推理API的应用,展示了如何在云端高效实现精准的搜索与推理服务。未来将拓展至多模态数据和知识图谱,进一步提升RAG效果。
318 1
|
9月前
|
数据采集 人工智能 运维
从企业级 RAG 到 AI Assistant,阿里云Elasticsearch AI 搜索技术实践
本文介绍了阿里云 Elasticsearch 推出的创新型 AI 搜索方案。
732 5

相关产品

  • 检索分析服务 Elasticsearch版