postgresql 标签分组实战(可用于用户画像的实践)-数组篇

2022-11-12 530

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

PolarClaw，2核4GB

简介： 基于数组方式方面的基础应用，如有更大数据量的标签组合的时候，请参考下德哥写的文章 https://developer.aliyun.com/article/307731

postgresql 标签分组实战

数据初始化

构建用户标签关系表

drop table IF  EXISTS t_user_tag;
create table IF NOT EXISTS t_user_tag(userid int8 not null primary key,tagids int[]);

初始化随机长度数据，假设标签范围1-10

-- 生成随机长度的数据数据 ，这样子数据就比较离散点，做查询索引的话，才容易命中，如果都是重复数据，做索引意义不大
do language plpgsql $$
declare 
begin  
  for i in 1..1000000 loop  
      insert into t_user_tag values (i,
            (select array_agg(ceil(random()*10)::int) from generate_series(1,ceil(random()*10)::int))
            ); 
  end loop;  
end;  
$$;

数据写入与变更操作演示

插入1条数据

-- 插入 10000001 用户数据, ARRAY 数组的代表方式
INSERT INTO t_user_tag
    VALUES (10000001,
    ARRAY[1, 2, 3, 4,5]);
-- 查询该数据
select * from t_user_tag where userid= 10000001;

更新数据

-- 更新数字的第一个元素为null，pg默认下标从1开始，也可以自己自定义
update t_user_tag set tagids[1] = null
where userid = 10000001;
-- 查询该数据
select * from t_user_tag where userid= 10000001;

-- 只保留2-4的4位数值
update t_user_tag set tagids = tagids[2:5]
where userid = 10000001;
-- 查询该数据
select * from t_user_tag where userid= 10000001;

update t_user_tag set tagids[6:7] = '{6,7}'
where userid = 10000001;
-- 查询该数据
select * from t_user_tag where userid= 10000001;

更新时使用函数操作（参考: http://www.postgres.cn/docs/14/functions-array.html）
追加写入数据

update t_user_tag set tagids= array_append(tagids,11)
where userid = 10000001;
-- 查询该数据
select * from t_user_tag where userid= 10000001;

-- 另外一种追加方式
update t_user_tag set tagids= tagids||22
where userid = 10000001;
-- 查询该数据
select * from t_user_tag where userid= 10000001;

删除指定数据

-- 从数组中移除所有等于给定值的所有元素
update t_user_tag set tagids=  array_remove(tagids, 2)
where userid = 10000001;
-- 查询该数据
select * from t_user_tag where userid= 10000001;

批量修改

-- 将每一个等于给定值的数组元素替换成一个新值
-- 比如说将所有的 6 改成 3
update t_user_tag set tagids = array_replace(tagids,6,3)
where userid = 10000001;
-- 查询该数据
select * from t_user_tag where userid= 10000001;

数据查询

假设求取的是都包含了标签5 和标签6的情况，有哪些

select * from t_user_tag
where  tagids @> '{6,5}' limit 10;

假设求取的是包含了标签5和标签6，并且最多标签为 5 个的情况下有哪些用户

select * from t_user_tag
where  tagids @> '{6,5}' 
and  array_length(tagids,1)<=5
limit 10;

假设求取的是只要有标签7 或标签9 的情况都筛选出来

select * from t_user_tag
where  tagids && '{7,9}' 
limit 10;

统计加速

构建索引

-- 构建索引 gin索引或 rum索引（支持排序操作）
CREATE INDEX idx_t_user_tag on t_user_tag using gin(tagids);

统计查询

-- 耗时90ms，其实内网下应该会更小的耗时
select count(1) from t_user_tag
where  tagids @> ARRAY[1,2,3];

统计分析

全表统计的情况下

select count(1) from t_user_tag

有以上基础后，可以尝试更大数据量的快速检索，例如2000亿数据量的检索如何实时实现

https://developer.aliyun.com/article/307731

相关实践学习

使用PolarDB和ECS搭建门户网站

本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。

阿里云数据库产品家族及特性

阿里云智能数据库产品团队一直致力于不断健全产品体系，提升产品性能，打磨产品功能，从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手，打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系，结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台，为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案，提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。

postgresql 标签分组实战(可用于用户画像的实践)-数组篇

postgresql 标签分组实战

数据初始化

数据写入与变更操作演示

数据查询

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

postgresql 标签分组实战(可用于用户画像的实践)-数组篇

postgresql 标签分组实战

数据初始化

数据写入与变更操作演示

数据查询

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像