PostgreSQL【应用 03】Docker部署的PostgreSQL扩展SQL之C语言函数(编写、编译、载入)计算向量余弦距离实例分享

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: PostgreSQL【应用 03】Docker部署的PostgreSQL扩展SQL之C语言函数(编写、编译、载入)计算向量余弦距离实例分享

通过使用 PostgreSQL 的 C 函数接口,我们可以编写用 C 语言实现的函数,并将其集成到数据库中。这些函数可以在 SQL 查询中像其他内置函数一样被调用,从而扩展 PostgreSQL 的功能。

C 函数在某些情况下可以提供比 SQL 函数更高的执行效率,因为它们可以直接访问底层系统资源并进行更高级的优化。通过使用 C 函数,我们可以在函数内部实现复杂的算法和逻辑,利用 C 语言的功能和库来提高执行效率。

环境说明:

# 此版本库可用
[root@tcloud ~]# docker -v
Docker version 20.10.13, build a224086
# 此版本不可用
[root@nodexxx ~]# docker -v
Docker version 1.13.1, build 7d71120/1.13.1

注意:Docker version 1.13.1无法使用。

1.准备

1.1 开发文档

-- 查询数据库版本
SELECT "version"()
-- PostgreSQL 12.12 (Debian 12.12-1.pgdg110+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 10.2.1-6) 10.2.1 20210110, 64-bit

根据数据库的版本查看文档:

英文:PostgreSQL: Documentation: 12: 37.10. C-Language Functions

中文:37.10. C 语言函数 (postgres.cn)

1.2 工具安装

# 避免报错1 bash: cc: command not found
# 未 update 可能会报错 E: Unable to locate package gcc
apt-get update
apt-get install gcc
# 避免报错2
functionNameFile.c:1:10: fatal error: postgres.h: No such file or directory
    1 | #include "postgres.h"
      |          ^~~~~~~~~~~~
compilation terminated.
# 根据版本进行安装【必备】
apt-get install postgresql-server-dev-12
# 报错
postgresql-server-dev-12 : Depends: llvm-11-dev but it is not installable

2.开始

2.1 编写C语言函数

创建一个新的文件,例如 cosine_distance_c.c,并添加以下内容:

#include "postgres.h"
#include "fmgr.h"
#include "math.h"
#include "utils/array.h"
#include "utils/float.h"
PG_MODULE_MAGIC;
PG_FUNCTION_INFO_V1(cosine_distance_c);
Datum cosine_distance_c(PG_FUNCTION_ARGS)
{
    ArrayType *arr1;
    arr1  = PG_GETARG_ARRAYTYPE_P(0);
    ArrayType *arr2;
    arr2 = PG_GETARG_ARRAYTYPE_P(1);
    int num_elems1, num_elems2;
    int16 elmlen;
    bool elmbyval, elmIsNull;
    Datum *elems1, *elems2;
    float8 sum_xy = 0.00000;
    float8 sum_x2 = 0.00000;
    float8 sum_y2 = 0.00000;
    float8 result;
    int i;
    deconstruct_array(arr1, 701, 8, FLOAT8PASSBYVAL, 'd', &elems1, NULL, &num_elems1);
    deconstruct_array(arr2, 701, 8, FLOAT8PASSBYVAL, 'd', &elems2, NULL, &num_elems2);
    if (num_elems1 != num_elems2)
        ereport(ERROR, (errmsg("Array lengths are not equal")));
    for (i = 0; i < num_elems1; i++)
    {
        sum_xy = sum_xy +  DatumGetFloat8(elems1[i]) * DatumGetFloat8(elems2[i]);
        sum_x2 = sum_x2 +  DatumGetFloat8(elems1[i]) * DatumGetFloat8(elems1[i]);
        sum_y2 = sum_y2 +  DatumGetFloat8(elems2[i]) * DatumGetFloat8(elems2[i]);
    }
    if (sum_x2 == 0.0 || sum_y2 == 0.0)
        ereport(ERROR, (errmsg("One or both arrays have zero magnitude")));
    result = sum_xy / (sqrt(sum_x2) * sqrt(sum_y2));
    pfree(elems1);
    pfree(elems2);
    PG_RETURN_FLOAT8(result);
}

2.2 编译和链接动态载入的函数

Linux环境:

# 创建PIC的编译器标志是-fpic。创建一个共享库的编译器标志是-shared。
cc -fPIC -c funcs.c
cc -shared -o funcs.so funcs.o

实例使用 C 编译器将源代码编译为共享库,例如 cosine_distance_c.so

# 使用
cc -fPIC -I`pg_config --includedir-server` -c cosine_distance_c.c
cc -shared -o cosine_distance_c.so cosine_distance_c.o -I`pg_config --includedir-server` -lm
  1. 将共享库文件复制到 PostgreSQL 的共享库目录中:
cp cosine_distance_c.so `pg_config --libdir`/.
# 实际查询
root@a0e33689b846:/# pg_config --libdir
/usr/lib/x86_64-linux-gnu
  1. 在 PostgreSQL 中创建函数的定义:
-- 这里用到了 pg_config --libdir 查询到的目录
CREATE FUNCTION cosine_distance_c(float8[], float8[])
    RETURNS float8
    AS '//usr/lib/x86_64-linux-gnu/cosine_distance_c.so', 'cosine_distance_c'
    LANGUAGE C STRICT;

现在,你可以在 SQL 查询中使用 cosine_distance_c 函数来计算两个 numeric 数组之间的余弦距离,例如:

SELECT cosine_distance_c(ARRAY[1.0, 2.0, 3.0], ARRAY[4.0, 5.0, 6.0]);

注意:上述示例是一个简化的实现,它假设传入的两个数组参数都是 numeric 类型的一维数组。在实际应用中,你可能需要进行更多的参数校验和错误处理,并支持更复杂的数组类型和维度。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
3月前
|
SQL 开发框架 .NET
突破T-SQL限制:利用CLR集成扩展RDS SQL Server的功能边界
CLR集成为SQL Server提供了强大的扩展能力,突破了T-SQL的限制,极大地拓展了SQL 的应用场景,如:复杂字符串处理、高性能计算、图像处理、机器学习集成、自定义加密解密等,使开发人员能够利用 .NET Framework的丰富功能来处理复杂的数据库任务。
|
5月前
|
关系型数据库 Serverless 定位技术
PostgreSQL GIS函数判断两条线有交点的函数是什么?
PostgreSQL GIS函数判断两条线有交点的函数是什么?
391 60
|
5月前
|
SQL 关系型数据库 C语言
PostgreSQL SQL扩展 ---- C语言函数(三)
可以用C(或者与C兼容,比如C++)语言编写用户自定义函数(User-defined functions)。这些函数被编译到动态可加载目标文件(也称为共享库)中并被守护进程加载到服务中。“C语言函数”与“内部函数”的区别就在于动态加载这个特性,二者的实际编码约定本质上是相同的(因此,标准的内部函数库为用户自定义C语言函数提供了丰富的示例代码)
|
6月前
|
关系型数据库 PostgreSQL
PostgreSQL的null值函数
【8月更文挑战第20天】PostgreSQL的null值函数
137 3
|
6月前
|
SQL 关系型数据库 MySQL
SQL Server、MySQL、PostgreSQL:主流数据库SQL语法异同比较——深入探讨数据类型、分页查询、表创建与数据插入、函数和索引等关键语法差异,为跨数据库开发提供实用指导
【8月更文挑战第31天】SQL Server、MySQL和PostgreSQL是当今最流行的关系型数据库管理系统,均使用SQL作为查询语言,但在语法和功能实现上存在差异。本文将比较它们在数据类型、分页查询、创建和插入数据以及函数和索引等方面的异同,帮助开发者更好地理解和使用这些数据库。尽管它们共用SQL语言,但每个系统都有独特的语法规则,了解这些差异有助于提升开发效率和项目成功率。
679 0
|
1月前
|
存储 算法 C语言
【C语言程序设计——函数】素数判定(头歌实践教学平台习题)【合集】
本内容介绍了编写一个判断素数的子函数的任务,涵盖循环控制与跳转语句、算术运算符(%)、以及素数的概念。任务要求在主函数中输入整数并输出是否为素数的信息。相关知识包括 `for` 和 `while` 循环、`break` 和 `continue` 语句、取余运算符 `%` 的使用及素数定义、分布规律和应用场景。编程要求根据提示补充代码,测试说明提供了输入输出示例,最后给出通关代码和测试结果。 任务核心:编写判断素数的子函数并在主函数中调用,涉及循环结构和条件判断。
58 23
|
1月前
|
算法 C语言
【C语言程序设计——函数】利用函数求解最大公约数和最小公倍数(头歌实践教学平台习题)【合集】
本文档介绍了如何编写两个子函数,分别求任意两个整数的最大公约数和最小公倍数。内容涵盖循环控制与跳转语句的使用、最大公约数的求法(包括辗转相除法和更相减损术),以及基于最大公约数求最小公倍数的方法。通过示例代码和测试说明,帮助读者理解和实现相关算法。最终提供了完整的通关代码及测试结果,确保编程任务的成功完成。
61 15
|
1月前
|
C语言
【C语言程序设计——函数】亲密数判定(头歌实践教学平台习题)【合集】
本文介绍了通过编程实现打印3000以内的全部亲密数的任务。主要内容包括: 1. **任务描述**:实现函数打印3000以内的全部亲密数。 2. **相关知识**: - 循环控制和跳转语句(for、while循环,break、continue语句)的使用。 - 亲密数的概念及历史背景。 - 判断亲密数的方法:计算数A的因子和存于B,再计算B的因子和存于sum,最后比较sum与A是否相等。 3. **编程要求**:根据提示在指定区域内补充代码。 4. **测试说明**:平台对代码进行测试,预期输出如220和284是一组亲密数。 5. **通关代码**:提供了完整的C语言代码实现
59 24
|
29天前
|
存储 C语言
【C语言程序设计——函数】递归求斐波那契数列的前n项(头歌实践教学平台习题)【合集】
本关任务是编写递归函数求斐波那契数列的前n项。主要内容包括: 1. **递归的概念**:递归是一种函数直接或间接调用自身的编程技巧,通过“俄罗斯套娃”的方式解决问题。 2. **边界条件的确定**:边界条件是递归停止的条件,确保递归不会无限进行。例如,计算阶乘时,当n为0或1时返回1。 3. **循环控制与跳转语句**:介绍`for`、`while`循环及`break`、`continue`语句的使用方法。 编程要求是在右侧编辑器Begin--End之间补充代码,测试输入分别为3和5,预期输出为斐波那契数列的前几项。通关代码已给出,需确保正确实现递归逻辑并处理好边界条件,以避免栈溢出或结果
61 16
|
28天前
|
存储 编译器 C语言
【C语言程序设计——函数】分数数列求和2(头歌实践教学平台习题)【合集】
函数首部:按照 C 语言语法,函数的定义首部表明这是一个自定义函数,函数名为fun,它接收一个整型参数n,用于指定要求阶乘的那个数,并且函数的返回值类型为float(在实际中如果阶乘结果数值较大,用float可能会有精度损失,也可以考虑使用double等更合适的数据类型,这里以float为例)。例如:// 函数体代码将放在这里函数体内部变量定义:在函数体中,首先需要定义一些变量来辅助完成阶乘的计算。比如需要定义一个变量(通常为float或double类型,这里假设用float。
34 3

热门文章

最新文章