《深入理解ElasticSearch》——3.2 相似度模型配置

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介:

本节书摘来自华章计算机《深入理解ElasticSearch》一书中的第3章,第3.2节,作者:[美] 拉斐尔·酷奇(Rafa Ku) 马雷克·罗戈任斯基(Marek Rogoziński)更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2 相似度模型配置

我们已经知道如何为索引中各个字段配置相似度模型了,现在来了解如何按需求配置它们。事实上,这相当容易。我们所要做的就是,在索引配置相关部分提供相应的相似度模型配置信息,就像下面的代码这样(本范例存储在posts_custom_similarity.json文件中):


fbc9fc0c5c530b56d6ae9292e46b11e33ea94dce


601fa85a7319272f5e4955a46374a713c811f772

尽管用户可以配置多个相似度模型,但此时还是先回到前面的范例。我们定义了一个名为mastering_similarity的新的相似度模型,它基于默认的TF/IDF相似度模型。接着将它的discount_overlaps属性值设置为false,指定该相似度模型用于name字段。关于不同相似度模型都有哪些属性本章后面会详细描述,现在,我们先讨论如何改变ElasticSearch的默认相似度模型。
3.2.1 选择默认的相似度模型
为了设置默认的相似度模型,我们需要提供关于一个名为default的相似度模型的配置信息。例如,要使用mastering_similarity模型作为默认的相似度模型,需要将前面的配置文件修改为如下形式(该范例存储在posts_default_similarity.json文件中):


b0c0bbbf9f3c758ce0c785fdbee13a93349acf26

虽然所有的相似度模型都全局使用了query norm和coord这两个评分因子(详见2.1节),但是它们又从default相似度模型的配置中移除出去了。然而,ElasticSearch允许用户根据需要改变这种状况。为了实现该目的,用户需要另外定义一个名为base的相似度模型,它的定义方式与前面的范例如出一辙,将相似度模型的名字由default改为base即可。参考下面的代码(该范例代码保存在posts_base_similarity.json文件中):


674b9efa61772669f60064b6cd6a3b19cbad25da


2b2189da5b5cfd1241c911e510ce0517f82cdfba

如果base相似度模型出现在索引配置中,那么当ElasticSearch使用其他相似度模型计算文档得分时,会使用base相似度模型来计算query norm和coord评分因子。
3.2.2 配置被选用的相似度模型
每个新增的相似度模型都可以根据用户需求进行配置,而ElasticSearch还允许用户不加配置地直接使用default和BM25相似度模型。因为它们是预先配置好的,而DFR和IB模型则需要进一步配置才能使用。现在,我们来看看各个相似度模型都提供了哪些可配置的属性。
配置TF/IDF相似度模型
在TF/IDF相似度模型案例中,我们可以只设置一个参数:discount_overlaps属性,其默认值为true。默认情况下,位置增量(position increment)为0(即该词条的position计数与前一个词条相同)的词条在计算评分时并不会被考虑进去。如果在计算文档时需要考虑这类词条,则需要将相似度模型的discount_overlaps属性值设置为false。
配置Okapi BM25相似度模型
在Okapi BM25相似度模型案例中,有如下参数可供配置:

  • k1:该参数为浮点数,控制饱和度(saturation),即词频归一化中的非线性项。
  • b:该参数为浮点数,用于控制文档长度对词频的影响。
  • discount_overlaps :与TF/IDF相似度模型中的discount_overlaps参数作用相同。

配置DFR相似度模型
在DFR相似度模型案例中,有如下参数可供配置:

  • basic_model:该参数值可设置为be、d、g、if、in和ine。
  • after_effect:该参数值可设置为no、b和l。
  • normalization :该参数值可设置为no、h1、h2、h3和z。

如果normalization参数值不是no,则需要设置归一化因子。归一化因子的设置依赖于所选的normalization参数值。参数值为h1时,使用normalization.h1.c属性;参数值为h2时,使用normalization.h2.c属性;参数值为h3时,使用normalization.h3.c属性;参数值为z时,使用normalization.z.z属性。这些属性值的数据类型均为浮点型。下面的代码展示了如何配置相似度模型:


5fe35f570efbe934e9998c920086a7264e6ae5a0

配置IB相似度模型
在IB相似度模型案例中,有如下参数可供配置:

  • distribution:该参数值可设置为ll或spl。
  • lambuda:该参数值可设置为df或tff。

此外,IB模型也需要配置归一化因子,它的配置方式与DFR模型相同,这里不再赘述。下面的代码展示了如何配置IB相似度模型:


<a href=https://yqfile.alicdn.com/a1fb2e841067261ba298808b038c390c5a5b9bab.png" >
相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
8月前
|
Unix Linux iOS开发
Elasticsearch如何配置日志
Elasticsearch如何配置日志
|
2月前
|
存储 缓存 固态存储
优化Elasticsearch 硬件配置
优化Elasticsearch 硬件配置
124 5
|
2月前
|
缓存 监控 安全
优化Elasticsearch 集群配置
优化Elasticsearch 集群配置
83 4
|
2月前
|
监控 负载均衡 安全
Elasticsearch集群配置优化
Elasticsearch集群配置优化
40 1
|
2月前
|
存储 安全 数据管理
如何在 Rocky Linux 8 上安装和配置 Elasticsearch
本文详细介绍了在 Rocky Linux 8 上安装和配置 Elasticsearch 的步骤,包括添加仓库、安装 Elasticsearch、配置文件修改、设置内存和文件描述符、启动和验证 Elasticsearch,以及常见问题的解决方法。通过这些步骤,你可以快速搭建起这个强大的分布式搜索和分析引擎。
69 5
|
3月前
|
运维 监控 Java
|
3月前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
108 1
|
6月前
|
存储 数据采集 数据处理
数据处理神器Elasticsearch_Pipeline:原理、配置与实战指南
数据处理神器Elasticsearch_Pipeline:原理、配置与实战指南
252 12
|
5月前
|
存储 Ubuntu Oracle
在Ubuntu 14.04上安装和配置Elasticsearch的方法
在Ubuntu 14.04上安装和配置Elasticsearch的方法
53 0
|
5月前
|
存储 安全 Java
在CentOS 7上安装和配置Elasticsearch的方法
在CentOS 7上安装和配置Elasticsearch的方法
376 0