ElasticSearch自定义排序(转载)

简介: 转自:http://www.dcharm.com/?p=469本文讨论ES的自定义排序的两种实现形式:基于groovy脚本的自定义排序和基于native script的自定义排序。

转自:http://www.dcharm.com/?p=469

本文讨论ES的自定义排序的两种实现形式:基于groovy脚本的自定义排序和基于native script的自定义排序。

1. 基于Groovy脚本的自定义排序

ES的排序脚本必须放在config/scripts下面,ES能够自动发现这些脚本并提供对外使用, 例如编写脚本calculate-score.groovy

log(_score*2)+my_modifier

脚本中my_modifier是搜索请求中的参数,_score是ES计算得到的文档分数。发起搜索请求时指定用calculate-score排序

curl -XPOST localhost:9200/_search -d '{

"query": {

"function_score": {

"query": {

"match": {

"body": "foo"

}

},

"functions": [

{

"script_score": {

"lang": "groovy",

"script_file": "calculate-score",

"params": {

"my_modifier": 8

}

}

}

]

}

}}'

在上面的请求指定了my_modifier的值为8,排序时calculate-score脚本中对应变量my_modifier就会被赋值为8。除此以外,还可以在脚本中通过doc[‘field_name’].value或者doc[‘field_name’].value获取field data中的字段;通过_fields[‘field_name’]获取没有存放在doc values中但是放在了ES存储(store)中的字段。需要注意的是doc values会被载入到内存,而store不会,所以doc values取值速度更快。

ES会周期性的扫描config/scripts下面的文件,新增和被修改的脚本会被重新载入,并从script缓存中删除文件夹中被删除的脚本。重载的频率可以在watcher.interval中说明,默认是60s。如果要禁止重载脚本,可以设置script.auto_reload_enabled为false。

2. 基于native脚本的自定义排序

ES中的native脚本使用java语言编写,并需要实现相应的NativeScriptFactory接口。

public class CustomScriptFactory implements NativeScriptFactory {

@Override

publicExecutableScript newScript(@NullableMap params) {

returnnewCustomScript(params);

}

}

public class CustomScript extends AbstractDoubleSearchScript {

private double myVal;

private double base;

public CustomScript(@NullableMap params){

base = (Double)params.get("myVal");

}

@Override

public double runAsDouble() {

doublea = ((ScriptDocValues.Longs)doc().get("itemNum")).getValue();

returna +2;

}

}

将打包后的jar包放到ES的class path中,并在配置文件config/elasticsearch.yml中增加一行配置:

script.native.mynativescript.type: com.ymatou.search.searcher.script.CustomScriptFactory

Native脚本不能被ES自动发现,需要重启ES,另外搜索请求的格式也有些不同。

curl -XPOST localhost:19200/m2c/item/_search -d '{

"query": {

"function_score": {

"query": {

"match_all": {}

},

"functions": [

{

"script_score": {

"lang":"native",

"script":"m2c_jyh_base",

"params": {

"myVal": 10.0

}

}

}

]

}

}

}'

3. Groovy脚本自定义排序和Native自定排序的比较

相对于Native自定义排序,Groovy脚本自定义排序实现和部署方便:不用编译打包,不用修改配置文件,也不用重启ES,但是Native自定义排序的速度是Groovy脚本自定义排序速度的1到3倍,因此建议大家使用Groovy脚本做实验,但是在生产环境中使用Native脚本。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
目录
相关文章
|
自然语言处理 大数据 应用服务中间件
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
332 5
|
SQL JSON 大数据
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
这篇文章是Elasticsearch的进阶使用指南,涵盖了Search API的两种检索方式、Query DSL的基本语法和多种查询示例,包括全文检索、短语匹配、多字段匹配、复合查询、结果过滤、聚合操作以及Mapping的概念和操作,还讨论了Elasticsearch 7.x和8.x版本中type概念的变更和数据迁移的方法。
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
|
自然语言处理 应用服务中间件 nginx
一文教会你 分词器elasticsearch-analysis-ik 的安装使用【自定义分词库】
这篇文章是关于如何在Elasticsearch中安装和使用ik分词器的详细教程,包括版本匹配、安装步骤、分词测试、自定义词库配置以及创建使用ik分词器的索引的方法。
一文教会你 分词器elasticsearch-analysis-ik 的安装使用【自定义分词库】
|
存储 自然语言处理 关系型数据库
ElasticSearch基础3——聚合、补全、集群。黑马旅游检索高亮+自定义分词器+自动补全+前后端消息同步
聚合、补全、RabbitMQ消息同步、集群、脑裂问题、集群分布式存储、黑马旅游实现过滤和搜索补全功能
ElasticSearch基础3——聚合、补全、集群。黑马旅游检索高亮+自定义分词器+自动补全+前后端消息同步
|
自然语言处理 搜索推荐
在Elasticsearch 7.9.2中安装IK分词器并进行自定义词典配置
在Elasticsearch 7.9.2中安装IK分词器并进行自定义词典配置
1790 1
Elasticsearch自定义时间格式
Elasticsearch自定义时间格式
410 0
|
自然语言处理 数据可视化 Linux
ElasticSearch安装ik分词器_使用_自定义词典
ElasticSearch安装ik分词器_使用_自定义词典
450 1
|
数据库
面试题ES问题之Elasticsearch的排序分页和高亮功能如何解决
面试题ES问题之Elasticsearch的排序分页和高亮功能如何解决
229 0
|
搜索推荐 JavaScript Java
Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序?
Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序?
|
数据安全/隐私保护 网络架构 索引
Elasticsearch索引数据的路由规则与自定义路由分发
Elasticsearch索引数据的路由规则与自定义路由分发
432 0