使用 PolarDB 开源版 采用array数组和gin索引高效率解决用户画像、实时精准营销类业务需求

本文涉及的产品
PolarDB Agent Express,2核4GB
云数据库 PolarDB MySQL 版,列存表分析加速 4核8GB
简介: PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍使用 PolarDB 开源版高效率解决用户画像、实时精准营销类业务需求

背景

PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.

本文将介绍使用 PolarDB 开源版高效率解决用户画像、实时精准营销类业务需求

测试环境为macOS+docker, PolarDB部署请参考下文:

原理

1、场景介绍:

用户画像通常被用于精准营销场景, 根据用户的行为分析并给用户打标签, 充分了解用户属性的诉求可以更好的实现供需连, 例如推送用户之所需, 根据市场需求进行备货等等.

数据分析时解决供需问题, 节省社会成本, 提升社会效率的有力手段.

2、难点:

  • 标签多, 标签的多少动态增减, 需要大量DDL, 不适合大宽表
  • 标签过滤需要全表扫描, 非常慢
  • 标签组合(包含、不包含等等), 过滤效率低
  • 每个用户的标签数量可能不一样, 不适合结构化存储

3、PolarDB如何解决这个问题:

  • 画像存储: 采用数组, 解决了动态增减标签, 个性化标签的需求, 不涉及结构变更.
  • GIN索引: 解决高效率组合搜索过滤问题
  • fast update: 解决实时打标的效率问题. (后台异步merge gin index)

场景模拟和架构设计实践

1、创建模拟生成标签的函数

create or replace function gen_arr(normal int, hot int) returns int[] as $$  
  select array(select (100000*random())::int+500 from generate_series(1,$1)) || array(select (500*random())::int from generate_series(1,$2));  
$$ language sql strict;  

体现个性标签+热门标签, 个性标签10万个, 热门标签500个.

例如20个个性标签+10个热门标签, 组成了某个人的画像.

postgres=# select gen_arr(22,10);  
                                                                                 gen_arr                                                                                    
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------  
 {84735,45437,35238,71110,22339,86790,89232,8340,851,50577,6600,53760,63854,95377,28505,12781,34180,56262,10835,53417,42865,67843,235,401,265,372,304,132,309,140,38,254}  
(1 row)  

2、创建测试表, 生产500万用户画像数据, 并创建gin索引

create table tbl (uid int8, tag int[]);  
  
insert into tbl select uid, gen_arr(22,10) from generate_series(1,5000000) uid;  
  
create index on tbl using gin (tag);  

3、圈选用户测试, 使用GIN倒排索引.

postgres=# explain select count(*) from tbl where tag @> '{100}'::int[];  
                                      QUERY PLAN                                        
--------------------------------------------------------------------------------------  
 Aggregate  (cost=24422.02..24422.03 rows=1 width=8)  
   ->  Bitmap Heap Scan on tbl  (cost=210.25..24359.52 rows=25000 width=0)  
         Recheck Cond: (tag @> '{100}'::integer[])  
         ->  Bitmap Index Scan on tbl_tag_idx  (cost=0.00..204.00 rows=25000 width=0)  
               Index Cond: (tag @> '{100}'::integer[])  
(5 rows)  

圈选某个热门标签

postgres=# select count(*) from tbl where tag @> '{100}'::int[];  
 count   
-------  
 99427  
(1 row)  
  
Time: 693.697 ms  

圈选某些热门标签

postgres=# select count(*) from tbl where tag @> '{100,50}'::int[];  
 count   
-------  
  1841  
(1 row)  
  
Time: 19.100 ms  

圈选某个个性标签

postgres=# select count(*) from tbl where tag @> '{600}'::int[];  
 count   
-------  
  1042  
(1 row)  
  
Time: 69.772 ms  

圈选某些个性标签

postgres=# select count(*) from tbl where tag @> '{600,700}'::int[];  
 count   
-------  
     0  
(1 row)  
  
Time: 11.029 ms  
  
postgres=# select count(*) from tbl where tag @> '{600,680}'::int[];  
 count   
-------  
     0  
(1 row)  
  
Time: 1.050 ms  

圈选某个个性标签, 并排除某个热门标签

postgres=# explain select count(*) from tbl where tag @> '{600}'::int[] and not (tag @> '{60}'::int[]);  
                                      QUERY PLAN                                        
--------------------------------------------------------------------------------------  
 Aggregate  (cost=23537.17..23537.18 rows=1 width=8)  
   ->  Bitmap Heap Scan on tbl  (cost=200.64..23478.51 rows=23463 width=0)  
         Recheck Cond: (tag @> '{600}'::integer[])  
         Filter: (NOT (tag @> '{60}'::integer[]))  
         ->  Bitmap Index Scan on tbl_tag_idx  (cost=0.00..194.78 rows=23917 width=0)  
               Index Cond: (tag @> '{600}'::integer[])  
(6 rows)  
  
Time: 0.570 ms  
  
postgres=# select count(*) from tbl where tag @> '{600}'::int[] and not (tag @> '{60}'::int[]);  
 count   
-------  
  1018  
(1 row)  
  
Time: 3.715 ms  

圈选某个热门标签, 并排除某个个性标签

postgres=# explain select count(*) from tbl where tag @> '{60}'::int[] and not (tag @> '{600}'::int[]);  
                                      QUERY PLAN                                        
--------------------------------------------------------------------------------------  
 Aggregate  (cost=109198.79..109198.80 rows=1 width=8)  
   ->  Bitmap Heap Scan on tbl  (cost=778.85..108962.84 rows=94380 width=0)  
         Recheck Cond: (tag @> '{60}'::integer[])  
         Filter: (NOT (tag @> '{600}'::integer[]))  
         ->  Bitmap Index Scan on tbl_tag_idx  (cost=0.00..755.26 rows=94834 width=0)  
               Index Cond: (tag @> '{60}'::integer[])  
(6 rows)  
  
Time: 1.714 ms  
  
postgres=# select count(*) from tbl where tag @> '{60}'::int[] and not (tag @> '{600}'::int[]);  
 count   
-------  
 98930  
(1 row)  
  
Time: 693.436 ms  

在笔记本上, 性能已经起飞, 何况是高端机器?

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
8月前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2开源发布,重点完善生态能力:新增客户端驱动、开源polardbx-proxy组件,支持读写分离与高可用;强化DDL变更、扩缩容等运维能力,并兼容MySQL主备复制及MCP AI生态。
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
8月前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2发布,新增开源Proxy组件与客户端驱动,支持读写分离、无感高可用切换及DDL在线变更,兼容MySQL生态,提升千亿级大表运维稳定性。
1950 24
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
10月前
|
人工智能 关系型数据库 MySQL
开源PolarDB-X:单节点误删除binlog恢复
本文由邵亚鹏撰写,分享了在使用开源PolarDB-X过程中,因误删binlog导致数据库服务无法启动的问题及恢复过程。作者结合实践经验,详细介绍了在无备份情况下如何通过单节点恢复机制重启数据库,并提出了避免类似问题的几点建议,包括采用高可用部署、定期备份及升级至最新版本等。
|
供应链 关系型数据库 分布式数据库
2025开源之夏火热报名|一起来设计PolarDB Dashboard
2025开源之夏正在火热报名中,PolarDB邀请全球学子参与云原生与Web开发的前沿项目。活动由中国科学院软件研究所发起,旨在鼓励高校学生通过实际开发维护开源软件,培养优秀开发者,推动开源生态发展。PolarDB项目聚焦设计与开发PolarDB-X Dashboard,要求掌握K8S Client-go和Web开发技术。参与者将根据项目难度获得税前8000至12000元人民币报酬,并获取结项证书。每位学生仅可申请一个项目,详情见官网。
2025开源之夏火热报名|一起来设计PolarDB Dashboard
|
SQL 关系型数据库 分布式数据库
PolarDB开源数据库入门教程
PolarDB是阿里云推出的云原生数据库,基于PostgreSQL、MySQL和Oracle引擎构建,具备高性能、高扩展性和高可用性。其开源版采用计算与存储分离架构,支持快速弹性扩展和100%兼容PostgreSQL/MySQL。本文介绍了PolarDB的安装方法(Docker部署或源码编译)、基本使用(连接数据库、创建表等)及高级特性(计算节点扩展、存储自动扩容、并行查询等)。同时提供了性能优化建议和监控维护方法,帮助用户在生产环境中高效使用PolarDB。
3381 21
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
550 4
|
存储 关系型数据库 MySQL
开源PolarDB- X|替换Opengemini时序数据场景下产品力校验
本文作者:黄周霖,数据库技术专家,就职于南京北路智控股份有限公司,负责数据库运维及大数据开发。
|
11月前
|
测试技术 PHP 开发者
PHP 数组查找:为什么 `isset()` 比 `in_array()` 快得多?
PHP 数组查找:为什么 `isset()` 比 `in_array()` 快得多?
|
人工智能 Java
Java 中数组Array和列表List的转换
本文介绍了数组与列表之间的相互转换方法,主要包括三部分:1)使用`Collections.addAll()`方法将数组转为列表,适用于引用类型,效率较高;2)通过`new ArrayList<>()`构造器结合`Arrays.asList()`实现类似功能;3)利用JDK8的`Stream`流式计算,支持基本数据类型数组的转换。此外,还详细讲解了列表转数组的方法,如借助`Stream`实现不同类型数组间的转换,并附带代码示例与执行结果,帮助读者深入理解两种数据结构的互转技巧。
1021 1
Java 中数组Array和列表List的转换
|
存储 Go 索引
go语言中的数组(Array)
go语言中的数组(Array)
365 67

热门文章

最新文章

相关产品

  • 云原生数据库 PolarDB