开放搜索查询分析服务架构解读

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 搜索行为在后端都会有大量的数据计算和处理才会召回符合用户需求的搜索结果,本次分享结合自建搜索业务中查询分析服务常见的问题及难点,介绍阿里云开放搜索查询分析具备的能力及解决方案,并深度解读阿里巴巴查询分析服务架构和兼容Elasticsearch的架构是如何实现的

特邀嘉宾:

项招贵(项公)--阿里巴巴高级技术专家

视频地址:https://yqh.aliyun.com/live/opensearch

查询分析介绍

查询分析在搜索中的作用

   在搜索请求的处理过程中可以在工程实现上分为两个阶段,召回和排序。在召回阶段需要尽可能的把用户想要的文档在引擎中找到,在排序阶段需要将最满足需求的文档排在最前面去返回给用户。

  通过查询分析可以快速进行处理和分析,比如,往往在实际的生产环境中,用户往往会有一些错误的输入,需要进行query纠错。 其次我们需要对query分词并且识别其中不同词的重要程度,这有助于我们在召回和排序中去使用。 同时由于实际的环境中存在一词多意,所以要进行同义词的扩展。 其次需要对用户的query进行改写去帮助引擎更高效的去执行召回。在query处理的阶段,会输出一些信息去以帮助我们在排序时候跟文档去算一些文档的相关性、类目相关性、以及通过一些将文本进行向量化去算它的语义相关性等。

查询分析链路

  总的来说,查询分析的作用就是对用户输入的query进行分析和改写,去提升我们系统的召回的准确率和排序的相关性。 下面通过简单的例子介绍开放搜索的查询分析的功能。

自建搜索服务面临的问题

  1. 需要行业领域知识不断积累;
  2. 缺少大量行业样本数据,自研难度大;
  3. 算法调优、工程开发、日常运维需要持续的人力投入;


开放搜索查询分析特点

  • 面向行业提供完整的查询分析解决方案

针对特定领域提供算法功能,以及对某些特定的算法功能进行优化。例如,电商行业,开放搜索提供了实体识别。教育行业,往往不仅是文本,也有可能是副文本或图片,所以对query进行了一个文本向量化的功能。有些功能在不同的行业里面我们也会针对性的去做优化,像拼写纠错或同义词的挖掘等等。

  • 查询分析每一个功能均可干预

干预是实时生效的, 包含实体识别、拼写纠错、停用词、词权重,同义词,类目预测等。

  • 轻量化的去定制服务

根据客户不同的业务场景去配置他的查询分析的能力,开放搜索提供这些能力功能的全集,用户可以根据实际需求选择其中一部分能力在实际生产环境中使用。 其次支持用户使用多种不同类型的查询分析,或者说是不同的查询分析的配置。

  • 免运维

免除用户日常的运维的持续的投入。

查询分析服务架构

算法服务中心

  • 算法功能的发布,迭代;
  • 用户模型的增删改查;
  • 算法模型的训练;
  • 算法模型的回流;

干预功能

  • 用户干预数据的增删改查;
  • 实时同步干预数据到查询分析服务中;

查询分析和类目预测服务

  • 加载词典、模型、数据、配置;
  • 不同行业通过不同的服务链配置来实现;
  • 加载用户干预数据;

查询过程

  • 根据用户配置的功能执行对应的查询分析链;
  • 改写的query发给引擎执行查询;

DIIRuntime框架

  • 支持多种不同类型的索引,满足算法对各种不同类型数据的高效访问;
  • 索引构建、分发、加载、查询统一,降低开发和运维成本;
  • 链式服务框架,灵活组链,支持不同场景的功能;
  • 算法开发只需要关注算法功能本身逻辑的实现,简单快捷;

Elasticsearch兼容架构

开放搜索Elasticsearch引擎查询分析功能

  • 基本对齐开放搜索的查询分析能力;
  • 具备行业分词能力
  • 可干预
  • 支持扩展分词
  • 具备行业查询分析能力
  • 可配置
  • 可干预

实现架构

1.创建实例

  • 创建开放搜索实例,关联Aliyun Elasticsearch的实例
  • 安装插件

2.配置查询分析

  • Mapping中设置使用响应的分析器
  • 插件功能
  • 提供通用、行业的分词能力
  • 访问查询分析服务,获取query改写结果
  • 改写Elasticsearch的查询query


>>如果有搜索效果深度优化需求,可以填写专家咨询问卷,参与试用即可免费获得开放搜索通用分词能力。问卷地址:https://c.tb.cn/F3.05Srxl

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群1111.png

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
目录
相关文章
|
26天前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
254 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
28天前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
277 129
|
4月前
|
人工智能 API 数据安全/隐私保护
Apifox 与 Apipost 的 API 文档引擎对比:底层架构、性能与可扩展性分析
深入探索市场上两大主流API工具——Apifox和Apipost的文档能力时,发现了令人惊讶的差距。这不仅仅是功能多寡的问题,更关乎开发效率与团队协作的质变。
|
3月前
|
消息中间件 负载均衡 中间件
⚡ 构建真正的高性能即时通讯服务:基于 Netty 集群的架构设计与实现
本文介绍了如何基于 Netty 构建分布式即时通讯集群。随着用户量增长,单体架构面临性能瓶颈,文章对比了三种集群方案:Nginx 负载均衡、注册中心服务发现与基于 ZooKeeper 的消息路由架构。最终选择第三种方案,通过 ZooKeeper 实现服务注册发现与消息路由,并结合 RabbitMQ 支持跨服务器消息广播。文中还详细讲解了 ZooKeeper 搭建、Netty 集群改造、动态端口分配、服务注册、负载均衡及消息广播的实现,构建了一个高可用、可水平扩展的即时通讯系统。
261 0
|
17天前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
96 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
2月前
|
机器学习/深度学习 算法 文件存储
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
神经架构搜索(NAS)正被广泛应用于大模型及语言/视觉模型设计,如LangVision-LoRA-NAS、Jet-Nemotron等。本文回顾NAS核心技术,解析其自动化设计原理,探讨强化学习、进化算法与梯度方法的应用与差异,揭示NAS在大模型时代的潜力与挑战。
297 6
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
|
17天前
|
Java API 开发工具
灵码产品演示:软件工程架构分析
本演示展示灵码对复杂软件项目的架构分析与文档生成能力。通过Qwen3模型,结合PlantUML,自动生成系统架构图、微服务时序图,并提取API接口文档,实现高效、智能的代码理解与文档输出。
101 5
|
15天前
|
存储 JSON 数据处理
ClkLog埋点与用户行为分析系统:架构升级与性能全面提升
随着越来越多企业在实际业务中使用 ClkLog,数据规模和分析需求也不断提升,部分用户日活已经超过10万,为了顺应这一趋势,ClkLog 秉持 “开放透明、持续演进”的理念,推出了迄今为止最重要的一次性能优化升级。新版本在大规模数据处理与复杂查询场景中,性能表现实现了跨越式提升。经过多轮研发与严格测试,新版本现已正式上线:在原有付费版 1.0 的基础上架构全面升级,并同步发布全新的 2.0 版本。为用户带来更强的性能与更广的适用场景。
|
17天前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
234 0
|
6月前
|
人工智能 自然语言处理 数据可视化
两大 智能体框架 Dify vs Langchain 的全面分析,该怎么选?资深架构师 做一个彻底的解密
两大 智能体框架 Dify vs Langchain 的全面分析,该怎么选?资深架构师 做一个彻底的解密
两大 智能体框架 Dify vs Langchain 的全面分析,该怎么选?资深架构师 做一个彻底的解密

相关产品

  • 智能开放搜索 OpenSearch