OpenSearch自定义分词服务

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
推荐全链路深度定制开发平台,高级版 1个月
简介: 背景 OpenSearch是一个以云服务方式提供给广大开发者使用的搜索引擎平台。在搜索引擎中,分词是最基础但很重要的功能,其效果会直接影响文档的召回。分词歧义会导致引擎无法召回目标文档。例如: 乒乓球拍卖完了 ==> 乒乓球/拍卖/完了 乒乓球拍 ==> 乒乓/球拍 在上面的case中,短语“乒乓球拍”不同的上下文中分词的结果不一样。

背景

OpenSearch是一个以云服务方式提供给广大开发者使用的搜索引擎平台。在搜索引擎中,分词是最基础但很重要的功能,其效果会直接影响文档的召回。分词歧义会导致引擎无法召回目标文档。例如:

乒乓球拍卖完了 ==> 乒乓球/拍卖/完了
乒乓球拍      ==> 乒乓/球拍

在上面的case中,短语“乒乓球拍”不同的上下文中分词的结果不一样。假如文档的内容为“乒乓球拍卖完了”,用户通过查询词“乒乓球拍”是无法召回该文档的。

OpenSearch的用户来自各行各业,类似上述例子的场景会被不同的用户遇到。分析线上query时,发现不少用户由于分词效果不理想,对同一个字段用不同的分词器建了多个索引(如单字分词,模糊分词,中文基础分词),查询时同时查多个索引已达到召回文档的目的。这种做法不仅会消耗更多的系统资源,而且通常效果会不太好。

支持用户对分词干预显得尤为重要。OpenSearch内部是一个多租户多应用共用的系统,因此,还需要确保应用间的干预是完全隔离的,不会互相影响。

基本思路

要对分词结果的干预,第一直觉就是用户可以定制分词器。有一种做法就是用户自己提供分词器,系统集成用户的分词器,这种方式对系统或者用户来说都太重了。系统需要对用户的分词器做审核,不能影响系统的稳定性;同时用户还需要理解分词接口等细节。当然,用户来可以自己分词,并将分词结果用于索引构建和查询,这要求用户自身有较强的技术,同时自身也会遇到需要干预的地方。

OpenSearch采用另一个方式:

  1. 系统提供通用中文分词器,适用于绝大多数的场景;
  2. 提供面向特定行业领域的分词器,如视频分词器、电商分词器、人名分词器等;通过这种方式可以优化一些特定领域的分词效果,以尽量满足用户的需求;
  3. 开放分词干预的接口,让用户进一步对分词结果进行定制化处理。用户可以在系统提供的基础分词器,通过结合自己的干预词条创建自定义分词器,并将该分词器应用在相应的索引字段中,达到干预索引和查询时的分词结果,确保搜索召回。

针对不同的场景,系统提供了两种类型的干预词条:语义实体和语义切分.

  1. 语义实体:主要用于一些系统尚未识别的实体词,干预后,该词的切分总是能保持一致,不受其所在的上下文影响。
  2. 语义切分:用于指定在特定上下文中,短语的切分方式,而不影响该短语在其他上下文中的切分方式。

系统流程

由用户自定义分词干预的数据,需要系统对用户的干预进行管理,包括:

  1. 对用户:
    • 干预数据的推送
    • 干预数据的查看
    • 干预数据的使用
  2. 对系统:
    • 干预数据合法性检查,保证词条干预能正常生效
    • 干预数据量控制,这主要是对系统的保护;
    • 干预数据生效后,才能被用户进行使用。如果用户的干预数据没有完全生效,就被用于索引的构建,会导致部分文档的分词结果和预期干预的不一样,出现无法被召回的情况。

整体流程图如下所示:
自定义分词干预数据流转图.png

用户词典数据管理

图中1至7为用户词典数据流,当用户创建词典时,系统会该词典分配一个惟一的id,词典数据会在ConfigServer内进行合法性检查,在经过几个模块和消息队列之后,会在BuildService那边建好索引,索引数据被分词服务加载起来,在分词的时候进行使用。

在索引构建时,会将词典数据构建两种不同类型的索引:kv索引和倒排索引。

  1. kv索引是以用户词条的原词做key,干预后的分词做为value,用于分词时使用。
  2. 对词典id构建倒排索引,达到可以根据id获得整个词典的所有内容,方便用户查看词典的详情。

在图中5.1时,词典数据被写到了DB。这是为了在有些情况下,需要用户的干预数据进行索引重建,此时可以从数据库获得全量的干预数据。

干预生效

这里包括两个方面:

  1. 推送的干预数据生效判断。由于整个数据流中,词典数据流转的地方都是严格按序处理的,因此在用户的词典数据最后增加一个哨兵doc,通过检查这个哨兵doc的状态,来判断用户的词典数据有没有全量生效;
  2. 干预数据在索引构建和查询生效。
    • 在对文档进行索引构建时,当用户使用了干预数据时,会将对应的字段内容以及分词器的配置传给分词服务,分词服务返回分词结果,BuildService根据该结果对文档建索引,供在线searcher加载提供查询服务;
    • 查询时,Agg收到查询请求时,会将从ConfigServer获取到的索引和分词配置信息,和用户的查询词相关的信息一起发给分词服务,并用分词服务返回的分词结果查询引擎。
    • 这样就保证索引构建和查询时分词结果的一致性。

后续工作

  1. 为了保证查询和索引构建时的分词效果一致性,用户对分词词典内容的修改,或者对自定义分词器的修改,当前的产品逻辑上要求对用户对索引进行重建。为了效果,牺牲了一定的易用性。后续会提供机制,让用户自己选择是否需要索引重建。同时,支持在查询支持指定分词器。
  2. 上面的流程中,词典数据的管理流程比较复杂。后续将通过迁移到OpenSearch统一的干预服务中去。
  3. 分词器的迭代更新,建立合理有效的分词器模型、系统和行业词典内容的更新机制。

最后

OpenSearch的自定义分词服务中使用的中文分词器选择用AliNLP_WS,这里特别感谢iDST-NLP-自然语言基础技术团队的大力支持。

附录自定义分词器使用流程




推荐与搜索技术钉钉交流群

f03598ed8ca169220dd1549e6315cb9a48e3b142

相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
目录
相关文章
|
Web App开发 自然语言处理 搜索推荐
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
|
存储 分布式计算 MaxCompute
基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务
本文将介绍企业在没有向量数据的情况下,如何通过OpenSearch向量检索版、MaxCompute以及OSS,快速搭建图像搜索服务。
42788 1
基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务
|
存储 分布式计算 算法
OpenSearch向量检索版和MaxCompute快速搭建图搜服务
本方案介绍用户在没有向量数据的情况下,通过直接导入图片源数据,在OpenSearch内部便捷完成图片向量化、向量搜索等步骤,实现以图搜图、以文搜图等多种图像检索能力。
1563 0
|
自然语言处理 搜索推荐 算法
阿里云OpenSearch重磅推出LLM问答式搜索产品,助力企业高效构建对话式搜索服务
OpenSearch推出LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务,基于内置的LLM大模型提供问答能力,一站式快速搭建问答搜索系统。
12150 7
|
自然语言处理 运维 算法
新功能 | 智能开放搜索上线定制分词器
智能开放搜索上线定制召回模型-定制分词器功能,满足各行业、垂类、业务特殊,对搜索有较高分词要求的客户,提升语义理解能力,精准召回用户搜索意图。
1022 0
|
自然语言处理 运维 算法
开放搜索查询分析服务架构解读
搜索行为在后端都会有大量的数据计算和处理才会召回符合用户需求的搜索结果,本次分享结合自建搜索业务中查询分析服务常见的问题及难点,介绍阿里云开放搜索查询分析具备的能力及解决方案,并深度解读阿里巴巴查询分析服务架构和兼容Elasticsearch的架构是如何实现的
1231 1
开放搜索查询分析服务架构解读
|
自然语言处理 大数据 API
|
搜索推荐 API 开发工具
OpenSearch:轻松构建大数据搜索服务
如何从海量的历史、实时数据中快速获取有用信息,变得越来越具挑战性,搜索是获取信息最高效的途径之一。云搜索是一种结构化数据的搜索托管服务,开发者可将数据上传至云端进行数据处理和索引构建,再通过API使用云搜索服务。OpenSearch是阿里云推出的一款云搜索服务,本文将介绍OpenSearch的发展历
6387 0
|
搜索推荐 大数据 API
OpenSearch:轻松构建大数据搜索服务
如何从海量的历史、实时数据中快速获取有用信息,令搜索变得越来越具挑战性。OpenSearch是阿里云推出的一款云搜索服务,本文将介绍OpenSearch的发展历程、基本功能、以及实现原理和架构,以实际应用场景为例讲述应用实践过程。
7875 0

相关产品

  • 智能开放搜索 OpenSearch