【技术解析 | 实践】Havenask-UDF定制

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
推荐全链路深度定制开发平台,高级版 1个月
简介: 本节分享 Havenask UDF定制相关的内容,共包含3个部分,分关于 Havenask 的 UDF 相关的介绍、自定义 UDF 的开发及配置方法的介绍,最后将进行 UDF 定制的实际操作演示。

一、UDF介绍

  • Havenask SQl 支持在查询语句中使用内置的 UDF,直译即用户自定义函数。同时也允许客户以插件的形式定制 UDF,客户可以自己开发并编译新的Havenask镜像以使用自定义的 UDF
  • Havenask 中已经有一些内置的 UDF,用户可以直接在查询中使用,例如用户可以通过 contain 函数判断某个字段的值是否在一个给定的集合内,或者使用MATCHINDEX QUERY 数查询倒排索引。
  • 还有可以计算向量查询分数或者文本匹配分的一些UDF,用户可以自行在查询中直接使用。


内置UDF列表

image.png


1、使用示例 A

例如 contain 函数,它的函数原型有以下6种,功能是判断第一个参数A中是否包含第二个参数 B中描述的内容。参数A可以是单值或多值的 int32int64string类型的字段,参数B为常量string表达式,表示的是一个给定的集合。集合的每个元素之间用竖线分割,返回值是布尔类型,表示参数 A的字段中是否包含参数 B所描述的集合。


原型

boolean contain(int32 a, const string b)

boolean contain(int64 a, const string b)

boolean contain(string a, const string b)

boolean contain(ARRAY a, const string b)

boolean contain(ARRAY a, const string b)

boolean contain(ARRAY a, const string b)


说明

判断单值或多值a中是否包含b中描述的内容

参数

参数a输入为单值多值的int32/int64/string 类型

参数b输入为常量string表达式,用 | 分隔,表示满足任意一项即可

返回值

boolean类型返回,表示参数a是否包含参数b中描述的集合


2、使用示例 B

例如用 contain 来检索 nid字段值在【1,2.3】这个集合中的所有记录。可以这样写 WHERE 子句:先将目标字段 nid作为 contain 的第一个参数,然后将给定的集合 1,2,3用以竖线分割的形式与成常量字符串作为 contain 函数的第二个参数。就能够通过 contain 检索到 nid 字段值在集合 1,2,3中的所有记录。

SELECT nid, price, brand, size FROM phone WHERE contain(nid, '1|2|3') ORDER BY nid LIMIT 100

USE_TIME: 0.059, ROW_COUNT: 3


------------------------------- TABLE INFO ---------------------------
nid   | price   | brand   | size  |
1   | 3599  | Huawei  | 5.9   |
2   | 4388  | Huawei  | 5.5   |
3     | 899     | Xiaomi  | 5     |


二、UDF开发及配置

1、UDF的开发

UDF的开发,可以参考udf_plugins路径下其他 UDF函数的实现,自定义 UDF 主要需要实现以下几个函数。

  • beginRequest函数,在 Query 开始时调用,可以初始化一些变量供后续使用。
  • evaluate 函数,在运行的过程中调用,将每条数据的相应字段送入该函数进行运算,并将 evaluate 的返回值作为最终结果。
  • creator 类的create Function 函数,用来创建 UDF 函数对象,可以做一些参数的检查,或者根据 UDF 的入参来创建不同的函数对象。开发完 UDF 的函数类和 creator 类之后需要在 HavenaskUdfFactory 中注册UDF。然后重新打包run time 镜像后才能使用新的自定义 UDF

image.png

image.png


2、UDF注册

开发完UDF的函数类和creator类之后,需要在HavenaskUdfFactory中注册这个UDF,然后重新打包runtime镜像后才能使用新的自定义UDF。

image.png


3、UDF配置

打镜像前还需要在 sql_function.json 配置中注册 UDF 原型,配置时可以参考每一项配置的说明。

  • 插件名称
  • 插件类型为UDF
  • is_determinisitic 表示输入相同时函数输出是否确定
  • 额外补充信息,例如UDF 中会使用到的 match data 的类型
  • 函数原型,其中也包括参数列表和返回值类型,可以注册多个函数原型
{
    "functions": [
        {
            "function_name": "cheap",                      // 1
            "function_type": "UDF",                         // 2
            "is_deterministic": 1,                          // 3
            "function_content_version": "json_default_0.1",
            "function_content": {
                "properties" : {},                          // 4
                "prototypes": [                             // 5
                    {
                        "params": [                         // 6
                            {
                                "is_multi": false,
                                "type": "double"
                            }
                        ],
                        "returns": [                        // 7
                            {
                                "is_multi": false,
                                "type": "boolean"
                            }
                        ]
                    }
                ]
            }
        }
    ]
}


三、实际操作演示

  • 首先进入ha3 dev 镜像,所有的开发都是在该镜像中完成,然后进入udf_plugins 目录。新建一个子目录cheap。我们将实现一个叫 cheap UDF,功能是判断一个字段的值是否小于2.000。此处已经写好了函数的相关实现,可以进去看一下具体的实现细节。
  • 首先来看一下头文件,头文件中包含了两个类,一个是 function 类,一个是 functionCreator 类。先来看 function 类,function 类接收一个 double 类型的字段作为输入然后在 query 开始时会调用 beginRequest函数,做一些初始化相关的操作。然后是 evaluate 函数,运行时会将每一条数据的相应字段,送入该函数进行运算,返回值作为最终的运算结果。这里 cheap 函数的作用是判断一个字段值是否小于 2000,所以返回值是一个布尔类型。

image.png


  • 再来看 functionCreator 类,这个类需要实现一个 createFunction 函数用来创建 function 类的对象。

image.png


再来看一下 CPP 文件,文件中是具体的函数实现。因为 cheap 函数实现比较简单,beginRequest没有需要做的事情,直接返回true 即可。evaluate 函数直接使用function 对象的 _pAttr 成员变量做一个判断,返回判断的结果即可。_pAttr 成员变量是在创建function 对象时通过构造函数传入。注意此处需要先调用getValue,才能从字段中获取到真正的值。functionCreator类的createFunction 函数的入参是查询语句中给 UDF 传入的参数,是一个 vector。我们可以在此处做一些参数的校验,先检查了入参不为空,然后又判断第一个字段不是多值类型的,防止创建函数出错。随后将 vector 的第一个元素作为 cheap 函数要判断的字段传入 UDF 对象中。然后需要在 Havenask UdfFactory.cpp中,注册该函数,此处仿照其他 UDF 的注册方法注册cheap 函数。

image.png


  • 接下来打开 udf_plugins 目录下的 BUILD 文件,将刚刚添加的cheap 目录下的所有 cpp 文件和头文件都加入 BUILD 文件的目标中。

image.png


  • 然后进入 sql目录下的misc 文件夹。编辑sql_function.json 配置文件,在最后加上我们的 cheap 的声明。开发都已完成。然后回到 Havenask 目录使用 build.sh 脚本编译代码。

image.png


  • 此处已经编译好。然后需要到容器的外边进入 docker目录下的runtime 子目录,将 bazel-bin 下刚刚编译好的hape_tar.tar 文件复制到子目录下。

image.png


  • 复制好之后需要使用docker build 的命令,打包一个新的镜像。例如镜像叫做ha3_runtime_udf。然后耐心等待镜像打包完成。打包完成后可以使用 docker 命令看到刚刚打好的镜像。可以看到这里已经有刚刚打好的ha3_runtime_udf镜像。

image.png


  • 然后更改 global.conf 配置,将所有的镜像都替换成ha3_runtime_udf

image.png


  • 这样下次使用hape 命令时就会使用刚刚打包好的镜像。然后使用hape 命令启动 havenask 服务,此处已经提前搭建好了一个 Havenask 服务,并且新建了一个商品表。先看看表里都有哪些数据。

image.png


  • 可以看到表中有商品id、商品 title 和商品price 字段,有的商品 price 价格大于 2.000 。可以通过在 WHERE 子句中使用定制好的 cheap 函数将价格大于2.000 的商品过滤掉。通过在原有查询中加上 WHERE 子句,将 price 字段传给 cheap 函数就可以得到过滤后的结果,可以看到所有价格大于2.000 的商品都已经被过滤。

image.png


四、结尾

具体HavenaskUDF定制的视频可以通过链接查看,欢迎各位开发者使用。

视频链接:https://developer.aliyun.com/live/253946?spm=a2c6h.12873587.live-index.30.3e4f7d23fFtlfg


关注我们:

Havenask 开源官网:https://havenask.net/

Havenask-Github 开源项目地址:https://github.com/alibaba/havenask

阿里云 OpenSearch 官网:https://www.aliyun.com/product/opensearch

钉钉扫码加入 Havenask 开源官方技术交流群:

1715594790746.png

目录
相关文章
|
4天前
|
运维 Kubernetes 监控
深入解析微服务架构的演进与实践
本文旨在探究微服务架构从诞生到成熟的发展历程,分析其背后的技术推动力和业务需求,并结合具体案例,揭示实施微服务过程中的挑战与解决策略。通过对微服务架构与传统单体架构的对比,阐明微服务如何优化现代应用开发流程,提高系统的可扩展性、可维护性和敏捷性。
14 0
|
4天前
|
数据采集 存储 API
Python虚拟环境数据共享技术解析:最佳实践与常见误区
本文探讨了Python爬虫开发中如何在虚拟环境中管理数据,提倡使用共享目录、数据库和API进行数据共享。通过创建虚拟环境、安装依赖并提供一个使用代理IP爬取微博数据的示例,阐述了如何配置代理、解析网页及保存数据到共享路径。强调了避免硬编码路径、忽视依赖管理和数据安全性的误区。
28 11
Python虚拟环境数据共享技术解析:最佳实践与常见误区
|
4天前
|
传感器 存储 数据采集
振弦采集仪的技术解析和应用进行详细介绍
振弦采集仪的技术解析和应用进行详细介绍
振弦采集仪的技术解析和应用进行详细介绍
|
2天前
|
物联网 云计算
操作系统中的内存管理技术解析
【7月更文挑战第13天】本文将深入探讨操作系统中至关重要的内存管理技术,包括虚拟内存、分页和分段机制等核心概念。我们将从内存管理的基本原理出发,逐步过渡到高级技术如交换空间和文件映射,最后讨论现代操作系统中内存管理面临的挑战与未来发展方向。文章旨在为读者提供对操作系统内存管理全面而深入的理解。
14 7
|
3天前
|
存储 安全 数据安全/隐私保护
移动APP安全加固技术深度解析
【7月更文挑战第12天】移动APP安全加固技术是保障移动应用安全的重要手段。通过对Android和iOS两大主流平台的安全加固,可以有效防止逆向分析、动态调试、数据篡改等安全威胁。在实际应用中,我们需要结合静态层面、动态层面和数据层面的加固技术,全方位地提升APP的安全性。同时,随着技术的不断发展,我们也需要不断关注新的安全威胁和加固技术,确保移动应用的安全性和稳定性。
|
1天前
|
数据可视化 持续交付 开发工具
RAD技术解析:快速开发应用程序的秘诀
**快速应用开发(RAD)**是一种始于90年代的敏捷方法,旨在通过迭代原型和反馈加速高质量软件交付。由James Martin提出,它包括需求规划、界面设计、快速构建和持续优化四阶段,以提高质量、降低风险、增强灵活性、降低成本和提升客户满意度。工具如ZohoCreator支持RAD,通过可视化工具和低代码平台促进高效开发,实现快速迭代和市场适应,降低项目失败风险,提高用户满意度。
23 9
|
3天前
|
安全 编译器 数据处理
PHP 8:新特性解析与实践应用
本文深入探讨了PHP 8版本中引入的关键新特性,包括JIT编译器、联合类型、命名参数、匹配表达式等,并结合实例代码演示了如何在实际项目中有效利用这些新功能来提高开发效率和代码质量。通过对比分析PHP 7与PHP 8的性能差异,文章进一步验证了新版本带来的性能提升,旨在为PHP开发者提供升级至PHP 8的全面指南。
8 2
|
3天前
|
编解码 前端开发 图形学
【技术深度解析】多平台适配下的UI适配难题:U3D游戏UI错乱的终极解决方案
【7月更文第12天】随着移动设备市场的多元化,Unity游戏开发者面临的一大挑战是如何在不同分辨率和屏幕尺寸的设备上保持UI的一致性和美观性。游戏在高分辨率平板与低分辨率手机上呈现出的UI布局混乱、按钮错位等问题,严重影响玩家体验。本文旨在探讨Unity UI(UGUI)在多平台适配中的最佳实践,通过优化Canvas Scaler设置、灵活运用RectTransform和Anchor Points,以及高效利用设计工具,确保UI的完美适配。
7 1
|
4天前
|
设计模式 中间件 测试技术
PHP中的中间件模式解析与实践
【7月更文挑战第11天】在现代Web开发中,中间件模式已成为设计高效、可维护应用程序的关键。本文深入探讨了PHP环境下中间件模式的实现方法,并提供了一个实际示例来演示如何利用中间件优化请求处理流程。
|
4天前
|
传感器 数据采集 安全
工程监测仪器振弦采集仪的技术解析与应用介绍
振弦采集仪的技术解析与应用进行介绍
工程监测仪器振弦采集仪的技术解析与应用介绍

推荐镜像

更多