Elasticsearch 8.X:这个复杂的检索需求如何实现?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Elasticsearch 8.X:这个复杂的检索需求如何实现?

1、企业级真实问题

问题描述如下:

如上图所示,index中有这样四个字段:title  content  question answer。要查询这四个字段,支持最多输入5个关键词模糊查询,多关键词以空格隔开。

匹配度计算逻辑:

  • 关键词有序排列 ,权重依次降低,即排列在前的关键词权重最高,依此降低;检索顺序和结果顺序一致的排在前面。
  • title(question)较content(answer)权重高,比如权重高10倍
  • 词频(关键词出现次数)越高,匹配度越高
  • 在匹配度相同的条件下按更新时间倒序排列

就拿上面的截图来看,doc标题:“小学语文周周学和基础天天练是否为配套练习?”这个doc应该排在第一位。

提问球友的 DSL 为:

{
"bool": {
  "should": [
    {
      "multi_match": {
        "query": "小学  天天 练习",
        "fields": [title  content  question answer],
        "type": "best_fields",
        "tie_breaker": 0.3
      }
    },
    {
      "match": {
        "title": {
          "query": "小学  天天 练习",
          "boost": 10
        }
      }
    },
    {
      "match": {
        "question": {
          "query": "小学  天天 练习",
          "boost": 10
        }
      }
    }
  ]
}
 }

2、需求重新梳理

问题有点长,我们重新梳理一下。

  • 需求 1:检索顺序和结果顺序一致的排在前面。
  • 需求 2:title(question)较content(answer)权重高,比如权重高10倍。
  • 需求 3:词频(关键词出现次数)越高,匹配度越高。
  • 需求 4:时间倒序排序。

已和提问确认,就是上述四个需求。

3、实现讨论

  • 针对需求 2,这个设置权重就可以实现。
  • 针对需求 3,这个 TF-IDF 机制决定的,检索后结果自然满足,也就是评分逻辑就是基于这个实现的(后续升级为BM25模型,原理一致),咱们不用动就可以。
  • 针对需求 4,加个时间排序就可以。

针对需求2、3、4,实现参考如下(字段权重根据实际业务场景自我调整即可):

POST new_index_2023/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "multi_match": {
            "query": "小学 天天",
            "fields": [
              "title^10",
              "question^10",
              "content",
              "answer"
            ],
            "type": "best_fields"
          }
        }
      ]
    }
  },
  "sort": [
    {
      "timestamp": {
        "order": "desc"
      }
    }
  ]
}

问题来了,需求 1 :检索顺序和结果顺序一致的排在前面咋搞呢?

我第一反应想到的是 Match_phrase 和 slop 结合的方案。

扩展说明一下:在 Elasticsearch 中,match_phrase 查询用于搜索精确的短语,而 slop 参数定义了词条之间的允许的最大距离。

slop 的意思是允许搜索的短语中的词条有多少的移动量来使其与文档中的短语匹配。

一句话:Match_phrase 和 slop 结合的方案,并不能直接实现需求1。

那怎么办?我们单独分析一下吧。

4、需求 1 实现讨论

针对需求1,通常在 Elasticsearch 里,检索顺序和结果顺序一致的功能是相对复杂的,尤其是当查询涉及多个字段和多个关键词时。通常这一需求是通过应用层的代码进行处理,而不是在 Elasticsearch 中。

可能的解决方案参考如下:

如果确实想在 Elasticsearch 里解决这个问题,那么脚本排序可能是唯一可行的内置解决方案,尽管这样可能会带来性能和可维护性的问题。

在多字段和多关键词的情况下,使用 Painless 脚本可能是最直接的方法来精确控制排序逻辑,但通常会牺牲一些性能。

简而言之,Elasticsearch 本身可能不是最适合解决这一具体需求的工具。更合适的方式可能是结合应用层的逻辑来实现这一需求。

一般遇到类似问题,就得有理有据的和产品经理讨论清楚需求,不要任凭产品经理“瞎指挥、瞎忽悠”

那么借助脚本如何实现呢?构造数据及拆解实现讨论如下:

4.1 步骤1:创建索引及导入数据

PUT /new_index_2023
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "fields": {
          "keyword": {
            "type": "keyword"
          }
        }
      },
      "content": {
        "type": "text"
      },
      "question": {
        "type": "text"
      },
      "answer": {
        "type": "text"
      }
    }
  }
}
 
 
POST /new_index_2023/_bulk
{"index": {}}
{"title": "基础天天练有没有单元练习?"}
{"index": {}}
{"title": "计算天天练是小学数学周周学的配套练习吗?"}
{"index": {}}
{"title": "小学语文周周学和基础天天练是否为配套练习?"}
{"index": {}}
{"title": "小学语文周天是否为配套练习"}
{"index": {}}
{"title": "计算天天练是周周学的配套练习吗?"}
{"index": {}}
{"title": "小学数学周天是否为配套练习"}
{"index": {}}
{"title": "基础天天练和53的区别是什么?"}
{"index": {}}
{"title": "计算天天练有视频讲解吗?"}
{"index": {}}
{"title": "基础天天练每个学期几本?"}

4.2 步骤2:脚本排序实现

如下实现仅针对需求1,脚本仅供参考。

POST new_index_2023/_search
{
  "query": {
    "match": {
      "title": "小学 天天"
    }
  },
  "sort": [
    {
      "_script": {
        "type": "number",
        "script": {
          "source": """
            def title = doc['title.keyword'].value;
            def keywordToFind = params.keywordToFind;
            def schoolKeyword = params.schoolKeyword;
            def indexSchool = title.indexOf(schoolKeyword);
            def indexKeyword = title.indexOf(keywordToFind);
            if (indexSchool < indexKeyword) {
              return 1;
            } else if (indexSchool > indexKeyword) {
              return -1;
            } else {
              return 0;
            }
          """,
          "lang": "painless",
          "params": {
            "keywordToFind": "天天",      
            "schoolKeyword": "小学"     
          }
        },
        "order": "desc"
      }
    }
  ]
}

脚本目的:为了对搜索结果进行排序,确保"title"字段中"小学"出现在"天天"之前的文档排在前面。

脚本实现逻辑解读

步骤 描述
1 通过doc['title.keyword'].value获取当前文档的"title"字段值并存储在title变量中。
2 使用Java的indexOf方法,找到"小学"在"title"中的位置,并将这个位置存储在indexSchool变量中。
3 使用同样的方法,找到"天天"在"title"中的位置,并将这个位置存储在indexKeyword变量中。
4 判断两个关键字的位置:如果"小学"在"天天"之前,返回1。
5 如果"小学"在"天天"之后,返回-1。
6 如果"小学"和"天天"在相同位置(实际上可能不会发生),返回0。

通过上述脚本,Elasticsearch 会优先返回那些"title"字段中"小学"出现在"天天"之前的文档。

读到这里,读者可能会问,这换个词咋办?的确这不是普适的解决方案,而是定制的解决方案。

如果要“普适”,得咱们业务层面自己把控实现,这是大前提!

5、小结

如上看似复杂需求,是借助拆解需求实现的任务分解。

请注意,这是一个非常简化和特定的例子。更复杂的需求(例如,处理多个字段或更多的关键词)可能需要更复杂的脚本。

但切记:如果排序逻辑变得太复杂或影响性能,可能需要考虑在应用层进行后处理,而不是依赖 Elasticsearch 的内部排序。

推荐阅读


更短时间更快习得更多干货!

和全球 近2000+ Elastic 爱好者一起精进!

大模型时代,抢先一步学习进阶干货!


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
1月前
|
存储 JSON 数据格式
Elasticsearch 8.X 可以按照数组下标取数据吗?
Elasticsearch 8.X 可以按照数组下标取数据吗?
25 0
|
1月前
|
JSON 监控 Java
Elasticsearch 8.X reindex 源码剖析及提速指南
Elasticsearch 8.X reindex 源码剖析及提速指南
34 0
|
1月前
|
存储 监控 Java
视频 | Elasticsearch 8.X 企业内训之最佳实践10 讲
视频 | Elasticsearch 8.X 企业内训之最佳实践10 讲
26 0
|
1月前
|
人工智能 自然语言处理 开发者
Langchain 与 Elasticsearch:创新数据检索的融合实战
Langchain 与 Elasticsearch:创新数据检索的融合实战
50 10
|
1月前
|
存储 数据处理 索引
Elasticsearch 8.X 小技巧:使用存储脚本优化数据索引与转换过程
Elasticsearch 8.X 小技巧:使用存储脚本优化数据索引与转换过程
46 6
|
1月前
|
存储 监控 安全
Elasticsearch 8.X 集群 SSL 证书到期了,怎么更换?
Elasticsearch 8.X 集群 SSL 证书到期了,怎么更换?
92 3
|
1月前
|
运维 架构师 搜索推荐
7 年+积累、 Elastic 创始人Shay Banon 等 15 位专家推荐的 Elasticsearch 8.X新书已上线...
7 年+积累、 Elastic 创始人Shay Banon 等 15 位专家推荐的 Elasticsearch 8.X新书已上线...
30 4
|
1月前
|
存储 机器学习/深度学习 搜索推荐
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?
42 3
|
1月前
|
API 索引
近期,几个典型 Elasticsearch 8.X 问题及方案探讨
近期,几个典型 Elasticsearch 8.X 问题及方案探讨
38 3
|
1月前
|
搜索推荐 JavaScript Java
Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序?
Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序?
33 0