使用 PolarDB 开源版 smlar 插件进行高效率相似文本搜索、自助选药、相似人群圈选等业务

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍使用 PolarDB 开源版 smlar 插件进行高效率相似文本搜索、自助选药、相似人群圈选等业务

背景

PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.

本文将介绍使用 PolarDB 开源版 smlar 插件进行高效率相似文本搜索、自助选药、相似人群圈选等业务

测试环境为macOS+docker, PolarDB部署请参考下文:

场景

1、自助匹配药品, 例如用户根据病情描述, 自动匹配相关的药品. 这个属于文本相似范畴. 文本相似性:

注意有语义的情况:

  • 感冒,不发烧,咳嗽,无痰,流清涕,肌肉酸痛
  • 感冒,发烧,咳嗽,有痰,无鼻涕

将药品主治症状的文本向量化, 存储为文本数组.

根据病人描述, 将文本向量化, 在药品库中进行文本向量的相似匹配, 快速找到最匹配的药品.

2、根据特征进行人群扩选, 例如在数据库中存储了每个用户的特征(使用数组表示)

根据输入的数组(画像)搜索相似人群, 即人群扩选, 业务上进行精准推送.

3、文章相似性搜索, 因为文章关键字很多, 每个关键字的权重也不一样, 不能只按命中多少关键字来决定相似性. 可以借助tfidf, 结合总文本数, 关键字在所有文本中出现的次数, 命中关键字等进行计算.

在所有文本中出现次数越多的关键字, 根据算法其权重可能越低. 具体算法可参考:

设计与算法

以上需求实际上都是多值列的相似计算, 使用smlar插件即可实现.

数据存储: 多值列(例如数组)

多值列的相似性算法: cosine, overlap, tfidf.

  switch(getSmlType())  
  {  
    case ST_TFIDF:  
      PG_RETURN_FLOAT4( TFIDFSml(sa, sb) );  
      break;  
    case ST_COSINE:  
      {  
        int       cnt;  
        double      power;  
  
        power = ((double)(sa->nelems)) * ((double)(sb->nelems));  
        cnt = numOfIntersect(sa, sb);  
  
        PG_RETURN_FLOAT4(  ((double)cnt) / sqrt( power ) );  
      }  
      break;  
    case ST_OVERLAP:  
      {  
        float4 res = (float4)numOfIntersect(sa, sb);  
  
        PG_RETURN_FLOAT4(res);  
      }  
      break;  

元素去重后计算.

postgres=# set smlar.type='cosine';   
SET  
postgres=# SELECT smlar('{1,4,6}'::int[], '{5,4,6}' );    
  smlar     
----------  
 0.666667  
(1 row)  
postgres=# SELECT smlar('{1,4,6}'::int[], '{5,4,4,6}' );    
  smlar     
----------  
 0.666667  
(1 row)  
-- 2/sqrt(3*3)   
  
postgres=# set smlar.type='overlap';   
SET  
postgres=# SELECT smlar('{1,4,6}'::int[], '{5,4,4,6}' );    
 smlar   
-------  
     2  
(1 row)  
-- 2  
  
postgres=# set smlar.type='tfidf';   
SET  
  
-- 设置tfidf表, 这个表可以用采样文档统计得到, 也可以自由定义其内容  
set smlar.stattable = 'documents_body_stats';   
  
create table documents_body_stats (  -- tfidf权重表.   
  value text unique,  -- value表示的关键字出现在多少篇文档中; value is null的行表示总文档篇数;  
  ndoc int not null    
);   
  
insert into documents_body_stats values ('0', 1); -- 0 出现在了1篇文章中.   
insert into documents_body_stats values ('1', 100); -- 1 出现在了100篇文章中.  
insert into documents_body_stats values ('4', 101), ('6', 201);   
insert into documents_body_stats values ('5', 1001);   
insert into documents_body_stats values (null, 10000);   -- value is null的行表示总文档篇数;  
  
postgres=# SELECT smlar('{1,4,6}'::text[], '{5,4,4,6}' );    
  smlar     
----------  
 0.742594  
(1 row)  
  
postgres=# SELECT smlar('{1,4,6}'::text[], '{5,5,5,6,6}' );    
 smlar    
--------  
 0.4436  
(1 row)  
  
postgres=# SELECT smlar('{0,1,4,5,6}'::text[], '{0,1,5}' );    
  smlar     
----------  
 0.868165  
(1 row)  
  
postgres=# SELECT smlar('{0,1,4,5,6}'::text[], '{1,5,6}' );    
  smlar     
----------  
 0.531762  
(1 row)  

加速原理

smlar 对数组支持gin和gist两个索引接口, 以gin为例, 如何快速筛选相似的记录?

例如, 输入条件的数组长度为6, 使用overlap算法, 要求相似度为4, 那么必须要有4个或4个以上元素命中的记录才符合要求.

  • 在gin索引中搜索元素1, 提取到ctid里的blockid, 每个blockid +1.
  • 在gin索引中搜索元素2, 提取到ctid里的blockid, 每个blockid +1.
  • 在gin索引中搜索元素3, 提取到ctid里的blockid, 每个blockid +1.
  • 在gin索引中搜索元素4, 提取到ctid里的blockid, 每个blockid +1.
  • 在gin索引中搜索元素5, 提取到ctid里的blockid, 每个blockid +1.
  • 在gin索引中搜索元素6, 提取到ctid里的blockid, 每个blockid +1.

在以上blockid中, 数据库只需要回表搜索大于等于4的blockid, recheck是否满足相似条件.

gin,gist支持的operator calss?

GiST/GIN support for % and && operations for:

Array Type GIN operator class GiST operator class
bit[] _bit_sml_ops
bytea[] _bytea_sml_ops _bytea_sml_ops
char[] _char_sml_ops _char_sml_ops
cidr[] _cidr_sml_ops _cidr_sml_ops
date[] _date_sml_ops _date_sml_ops
float4[] _float4_sml_ops _float4_sml_ops
float8[] _float8_sml_ops _float8_sml_ops
inet[] _inet_sml_ops _inet_sml_ops
int2[] _int2_sml_ops _int2_sml_ops
int4[] _int4_sml_ops _int4_sml_ops
int8[] _int8_sml_ops _int8_sml_ops
interval[] _interval_sml_ops _interval_sml_ops
macaddr[] _macaddr_sml_ops _macaddr_sml_ops
money[] _money_sml_ops
numeric[] _numeric_sml_ops _numeric_sml_ops
oid[] _oid_sml_ops _oid_sml_ops
text[] _text_sml_ops _text_sml_ops
time[] _time_sml_ops _time_sml_ops
timestamp[] _timestamp_sml_ops _timestamp_sml_ops
timestamptz[] _timestamptz_sml_ops _timestamptz_sml_ops
timetz[] _timetz_sml_ops _timetz_sml_ops
varbit[] _varbit_sml_ops
varchar[] _varchar_sml_ops _varchar_sml_ops

例子

1、部署smlar on PolarDB

git clone --depth 1  git://sigaev.ru/smlar.git  
  
  
cd smlar/  
  
USE_PGXS=1 make  
USE_PGXS=1 make install  
  
  
[postgres@aa25c5be9681 smlar]$ USE_PGXS=1 make installcheck  
/home/postgres/tmp_basedir_polardb_pg_1100_bld/lib/pgxs/src/makefiles/../../src/test/regress/pg_regress --inputdir=./ --bindir='/home/postgres/tmp_basedir_polardb_pg_1100_bld/bin'      --dbname=contrib_regression smlar int2 int4 int8 float4 float8 money oid timestamp timestamptz time timetz date interval macaddr inet cidr text varchar char bytea bit varbit numeric int4g int8g intervalg textg int4i int8i intervali texti composite_int4 composite_text  
(using postmaster on 127.0.0.1, default port)  
============== dropping database "contrib_regression" ==============  
DROP DATABASE  
============== creating database "contrib_regression" ==============  
CREATE DATABASE  
ALTER DATABASE  
============== running regression test queries        ==============  
test smlar                        ... ok  
test int2                         ... ok  
test int4                         ... ok  
test int8                         ... ok  
test float4                       ... ok  
test float8                       ... ok  
test money                        ... ok  
test oid                          ... ok  
test timestamp                    ... ok  
test timestamptz                  ... ok  
test time                         ... ok  
test timetz                       ... ok  
test date                         ... ok  
test interval                     ... ok  
test macaddr                      ... ok  
test inet                         ... ok  
test cidr                         ... ok  
test text                         ... ok  
test varchar                      ... ok  
test char                         ... ok  
test bytea                        ... ok  
test bit                          ... ok  
test varbit                       ... ok  
test numeric                      ... ok  
test int4g                        ... ok  
test int8g                        ... ok  
test intervalg                    ... ok  
test textg                        ... ok  
test int4i                        ... ok  
test int8i                        ... ok  
test intervali                    ... ok  
test texti                        ... ok  
test composite_int4               ... ok  
test composite_text               ... ok  
  
  
===========================================================  
 All 34 tests passed.   
  
 POLARDB:  
 All 34 tests, 0 tests in ignore, 0 tests in polar ignore.   
===========================================================  

2、安装插件

postgres=# create extension smlar ;  
CREATE EXTENSION  

3、创建测试表, 写入测试数据

create table tbl (id int, propt int[]);  
  
create or replace function gen_arr(normal int, hot int) returns int[] as $$  
  select array(select (100000*random())::int+500 from generate_series(1,$1)) || array(select (500*random())::int from generate_series(1,$2));  
$$ language sql strict;  
  
insert into tbl select id, gen_arr(22, 10) from generate_series(1,2000000) id;  
  
postgres=# select * from tbl limit 5;  
 id |                                                                                     propt                                                                                       
----+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------  
  1 | {1386,57573,55117,44934,83223,3444,77658,49523,85849,62549,99593,40714,53146,32510,68449,33662,45912,70227,64560,78831,86052,56387,157,490,51,484,53,176,273,240,300,277}  
  2 | {15075,100383,88390,18019,77540,37413,3368,39590,36506,43582,92236,68516,11532,25398,13927,81259,89457,92259,66811,45344,23676,64902,275,100,375,451,373,116,251,150,141,324}  
  3 | {16664,82803,7375,53577,85671,46465,89583,28753,38201,57599,39785,63099,71026,20543,52056,62785,86854,96900,85960,51256,51917,5901,129,208,400,244,459,49,386,283,198,467}  
  4 | {47066,46889,24635,93031,35972,52888,30732,93071,92172,93330,63597,12216,44887,25882,98570,41287,11343,49327,92704,16743,75095,34373,481,117,129,30,3,412,228,470,107,461}  
  5 | {46010,85290,76290,98398,15522,68861,90070,8352,31959,1786,52739,57341,99856,93526,68184,48683,85730,84427,23278,19603,80575,46747,224,430,234,136,159,204,243,120,406,471}  
(5 rows)  

4、创建索引

create index on tbl using gin (propt _int4_sml_ops);  

5、相似度搜索

overlap

postgres=# set smlar.type ='overlap';  
SET  
postgres=# set smlar.threshold=10;  
SET  
  
postgres=# explain analyze select * from tbl where propt % '{157,490,51,484,53,176,273,240,300,277}'::int[];  
                                                         QUERY PLAN                                                            
-----------------------------------------------------------------------------------------------------------------------------  
 Bitmap Heap Scan on tbl  (cost=219.50..6871.30 rows=2000 width=36) (actual time=37.548..37.549 rows=1 loops=1)  
   Recheck Cond: (propt % '{157,490,51,484,53,176,273,240,300,277}'::integer[])  
   Heap Blocks: exact=1  
   ->  Bitmap Index Scan on tbl_propt_idx  (cost=0.00..219.00 rows=2000 width=0) (actual time=37.514..37.515 rows=1 loops=1)  
         Index Cond: (propt % '{157,490,51,484,53,176,273,240,300,277}'::integer[])  
 Planning Time: 0.161 ms  
 Execution Time: 37.593 ms  
(7 rows)  
  
Time: 38.683 ms  
postgres=# select * from tbl where propt % '{157,490,51,484,53,176,273,240,300,277}'::int[];  
 id |                                                                                   propt                                                                                     
----+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------  
  1 | {1386,57573,55117,44934,83223,3444,77658,49523,85849,62549,99593,40714,53146,32510,68449,33662,45912,70227,64560,78831,86052,56387,157,490,51,484,53,176,273,240,300,277}  
(1 row)  
  
Time: 38.794 ms  
  
关闭索引, 性能直线下降:  
postgres=# set enable_bitmapscan =off;  
SET  
Time: 0.510 ms  
postgres=# select * from tbl where propt % '{157,490,51,484,53,176,273,240,300,277}'::int[];  
 id |                                                                                   propt                                                                                     
----+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------  
  1 | {1386,57573,55117,44934,83223,3444,77658,49523,85849,62549,99593,40714,53146,32510,68449,33662,45912,70227,64560,78831,86052,56387,157,490,51,484,53,176,273,240,300,277}  
(1 row)  
  
Time: 12553.942 ms (00:12.554)  

采用smlar提速100倍以上.

cosine

postgres=# set smlar.type ='cosine';  
SET  
  
postgres=# set smlar.threshold=0.55;  
SET  
Time: 1.107 ms  
postgres=# select * from tbl where propt % '{157,490,51,484,53,176,273,240,300,277}'::int[];  
 id |                                                                                   propt                                                                                     
----+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------  
  1 | {1386,57573,55117,44934,83223,3444,77658,49523,85849,62549,99593,40714,53146,32510,68449,33662,45912,70227,64560,78831,86052,56387,157,490,51,484,53,176,273,240,300,277}  
(1 row)  
  
Time: 42.701 ms  

tfidf

  • 例如将所有的药品说明书进行文本向量处理, 提取关键字, 生成tfidf表.
  • 请自行测试

参考

https://github.com/jirutka/smlar

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
25天前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2开源发布,重点完善生态能力:新增客户端驱动、开源polardbx-proxy组件,支持读写分离与高可用;强化DDL变更、扩缩容等运维能力,并兼容MySQL主备复制及MCP AI生态。
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
22天前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2发布,新增开源Proxy组件与客户端驱动,支持读写分离、无感高可用切换及DDL在线变更,兼容MySQL生态,提升千亿级大表运维稳定性。
399 24
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
3月前
|
人工智能 关系型数据库 MySQL
开源PolarDB-X:单节点误删除binlog恢复
本文由邵亚鹏撰写,分享了在使用开源PolarDB-X过程中,因误删binlog导致数据库服务无法启动的问题及恢复过程。作者结合实践经验,详细介绍了在无备份情况下如何通过单节点恢复机制重启数据库,并提出了避免类似问题的几点建议,包括采用高可用部署、定期备份及升级至最新版本等。
|
6月前
|
供应链 关系型数据库 分布式数据库
2025开源之夏火热报名|一起来设计PolarDB Dashboard
2025开源之夏正在火热报名中,PolarDB邀请全球学子参与云原生与Web开发的前沿项目。活动由中国科学院软件研究所发起,旨在鼓励高校学生通过实际开发维护开源软件,培养优秀开发者,推动开源生态发展。PolarDB项目聚焦设计与开发PolarDB-X Dashboard,要求掌握K8S Client-go和Web开发技术。参与者将根据项目难度获得税前8000至12000元人民币报酬,并获取结项证书。每位学生仅可申请一个项目,详情见官网。
2025开源之夏火热报名|一起来设计PolarDB Dashboard
|
存储 关系型数据库 MySQL
开源PolarDB- X|替换Opengemini时序数据场景下产品力校验
本文作者:黄周霖,数据库技术专家,就职于南京北路智控股份有限公司,负责数据库运维及大数据开发。
|
6月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
341 3
|
6月前
|
SQL 关系型数据库 分布式数据库
PolarDB开源数据库入门教程
PolarDB是阿里云推出的云原生数据库,基于PostgreSQL、MySQL和Oracle引擎构建,具备高性能、高扩展性和高可用性。其开源版采用计算与存储分离架构,支持快速弹性扩展和100%兼容PostgreSQL/MySQL。本文介绍了PolarDB的安装方法(Docker部署或源码编译)、基本使用(连接数据库、创建表等)及高级特性(计算节点扩展、存储自动扩容、并行查询等)。同时提供了性能优化建议和监控维护方法,帮助用户在生产环境中高效使用PolarDB。
2026 21
|
7月前
|
关系型数据库 分布式数据库 数据库
一库多能:阿里云PolarDB三大引擎、四种输出形态,覆盖企业数据库全场景
PolarDB是阿里云自研的新一代云原生数据库,提供极致弹性、高性能和海量存储。它包含三个版本:PolarDB-M(兼容MySQL)、PolarDB-PG(兼容PostgreSQL及Oracle语法)和PolarDB-X(分布式数据库)。支持公有云、专有云、DBStack及轻量版等多种形态,满足不同场景需求。2021年,PolarDB-PG与PolarDB-X开源,内核与商业版一致,推动国产数据库生态发展,同时兼容主流国产操作系统与芯片,获得权威安全认证。
|
4月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
2月前
|
Cloud Native 关系型数据库 MySQL
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X
PolarDB-X 是阿里云推出的云原生分布式数据库,支持PB级存储扩展、高并发访问与数据强一致,助力企业实现MySQL平滑迁移。现已开放免费体验,点击即享高效、稳定的数据库升级方案。
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X

相关产品

  • 云原生数据库 PolarDB