【学习视频】第10期2017-PostgreSQL 应用场景实践 - 适合架构师与业务开发者

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
对象存储 OSS,20GB 3个月
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 大家好,这里是PostgreSQL 多应用场景实践 - 沙箱实验

背景


为了能够让用户可以更快的上手PostgreSQL,与云栖团队的小伙伴制作了一系列阿里云RDS PostgreSQL沙箱实验。

所有实验内容都结合了应用场景,非常具有代表性,兴趣性与一定的挑战性。

如果你想自己安装PG进行如下实践,可以参考安装文档,建议使用PG的最新稳定版(PG每一年会发布一个大版本,稳定GA):

《PostgreSQL 11 参数模板 - 珍藏级》

《PostgreSQL 10 + PostGIS + Sharding(pg_pathman) + MySQL(fdw外部表) on ECS 部署指南(适合新用户) - 珍藏级》

如果你想体系化的学习PG,可以参考:

《PostgreSQL 2天培训大纲》

以及

《PostgreSQL、Greenplum 《如来神掌》》

《阿里云 PostgreSQL 产品生态;案例、开发实践、管理实践、数据库原理 - 含学习资料、学习视频》

《Oracle DBA 转型 PostgreSQL,Greenplum 学习规划》

沙箱简介


基础知识准备

http://www.postgresqltutorial.com/

客户端准备

安装 postgresql 11客户端 (需包含psql, pgbench 命令)

https://www.postgresql.org/download/

建议沙箱规格

建议要看效果的话,至少来个 RDS PG 11, 4核, 32G, 100G 空间

功能演示,可以小一点的规格

第1期:PostgreSQL 构造海量数据

知识点:pgbench, plpgsql开发, srf函数

本期视频讲解

相关链接:

1、PostgreSQL 如何快速构建 海量 逼真 测试数据

https://github.com/digoal/blog/blob/master/201711/20171121_01.md

https://github.com/digoal/blog/blob/master/201711/readme.md

《PostgreSQL 11 1Kw TPCC , 1亿 TPCB 7*24 强压耐久测试》

《PostgreSQL 11 1万亿 tpcb 性能测试 on 阿里云ECS + ESSD + zfs/lvm2条带 + block_size=32K》

《PostgreSQL 11 1000亿 tpcb、1000W tpcc 性能测试 - on 阿里云ECS + ESSD (含quorum based 0丢失多副本配置与性能测试)》

《PostgreSQL 11 100亿 tpcb 性能测试 on ECS》

《PostgreSQL 11 tpcc 测试(103万tpmC on ECS) - use sysbench-tpcc by Percona-Lab》

《(TPC-H测试 SF=10,SF=200) PostgreSQL 11 vs 10 vs Deepgreen》

第2期:PostgreSQL 秒杀场景实践

知识点:行锁,等待,ad lock。

本期视频讲解

相关链接:

1、PostgreSQL 秒杀4种方法 - 增加 批量流式加减库存 方法

https://github.com/digoal/blog/blob/master/201801/20180105_03.md

2、HTAP数据库 PostgreSQL 场景与性能测试之 30 - (OLTP) 秒杀 - 高并发单点更新

https://github.com/digoal/blog/blob/master/201711/20171107_31.md

3、聊一聊双十一背后的技术 - 不一样的秒杀技术, 裸秒

https://github.com/digoal/blog/blob/master/201611/20161117_01.md

4、PostgreSQL 秒杀场景优化

https://github.com/digoal/blog/blob/master/201509/20150914_01.md

第3期:PostgreSQL 实时搜索实践

知识点:GIN、RUM索引,分词、pg_trgm、全文检索、正则、模糊查询、文本相似搜索、词频统计

本期视频讲解

相关链接:

1、使用阿里云PostgreSQL zhparser中文分词时不可不知的几个参数

https://github.com/digoal/blog/blob/master/201603/20160310_01.md

2、用PostgreSQL 做实时高效 搜索引擎 - 全文检索、模糊查询、正则查询、相似查询、ADHOC查询

https://github.com/digoal/blog/blob/master/201712/20171205_02.md

3、PostgreSQL 模糊查询最佳实践 - (含单字、双字、多字模糊查询方法)

https://github.com/digoal/blog/blob/master/201704/20170426_01.md

4、PostgreSQL 相似搜索设计与性能 - 地址、QA、POI等文本 毫秒级相似搜索实践

https://github.com/digoal/blog/blob/master/201802/20180202_01.md

5、PostgreSQL 相似搜索分布式架构设计与实践 - dblink异步调用与多机并行(远程 游标+记录 UDF实例)

https://github.com/digoal/blog/blob/master/201802/20180205_03.md

6、HTAP数据库 PostgreSQL 场景与性能测试之 12 - (OLTP) 字符串搜索 - 前后模糊查询

https://github.com/digoal/blog/blob/master/201711/20171107_13.md

7、HTAP数据库 PostgreSQL 场景与性能测试之 13 - (OLTP) 字符串搜索 - 相似查询

https://github.com/digoal/blog/blob/master/201711/20171107_14.md

8、HTAP数据库 PostgreSQL 场景与性能测试之 14 - (OLTP) 字符串搜索 - 全文检索

https://github.com/digoal/blog/blob/master/201711/20171107_15.md

9、HTAP数据库 PostgreSQL 场景与性能测试之 16 - (OLTP) 文本特征向量 - 相似特征(海明...)查询

https://github.com/digoal/blog/blob/master/201711/20171107_17.md

10、HTAP数据库 PostgreSQL 场景与性能测试之 17 - (OLTP) 数组相似查询

https://github.com/digoal/blog/blob/master/201711/20171107_18.md

11、PostgreSQL 全文检索 - 词频统计

https://github.com/digoal/blog/blob/master/201803/20180309_02.md

12、《如何加快PostgreSQL结巴分词pg_jieba加载速度》

《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 3 - citus 8机128shard (4亿图像)》

《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 2 - 单机分区表 (dblink 异步调用并行) (4亿图像)》

《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 1 - 单机单表 (4亿图像)》

《PostgreSQL 相似搜索插件介绍大汇总 (cube,rum,pg_trgm,smlar,imgsmlr,pg_similarity) (rum,gin,gist)》

第4期:PostgreSQL 实时多维分析

知识点:GIN、RUM索引,任意字段组合查询,数组相交、包含、相似搜索

本期视频讲解

相关链接:

1、PostgreSQL ADHoc(任意字段组合)查询 与 字典化 (rum索引加速) - 实践与方案1

https://github.com/digoal/blog/blob/master/201802/20180228_01.md

2、PostgreSQL ADHoc(任意字段组合)查询(rums索引加速) - 非字典化,普通、数组等组合字段生成新数组

https://github.com/digoal/blog/blob/master/201805/20180518_02.md

3、HTAP数据库 PostgreSQL 场景与性能测试之 17 - (OLTP) 数组相似查询

https://github.com/digoal/blog/blob/master/201711/20171107_18.md

4、HTAP数据库 PostgreSQL 场景与性能测试之 18 - (OLAP) 用户画像圈人场景 - 数组包含查询与聚合

https://github.com/digoal/blog/blob/master/201711/20171107_19.md

5、HTAP数据库 PostgreSQL 场景与性能测试之 19 - (OLAP) 用户画像圈人场景 - 数组相交查询与聚合

https://github.com/digoal/blog/blob/master/201711/20171107_20.md

6、HTAP数据库 PostgreSQL 场景与性能测试之 20 - (OLAP) 用户画像圈人场景 - 多个字段任意组合条件筛选与透视

https://github.com/digoal/blog/blob/master/201711/20171107_21.md

第5期:PostgreSQL 估值、概率计算

知识点:统计信息、采样接口、概率计算插件HLL\CMS_TOPN、滑窗分析、EXPLAIN 估值

本期视频讲解

相关链接:

1、《秒级任意维度分析1TB级大表 - 通过采样估值满足高效TOP N等统计分析需求》

https://github.com/digoal/blog/blob/master/201709/20170911_02.md

2、《PostgreSQL count-min sketch top-n 概率计算插件 cms_topn (结合窗口实现同比、环比、滑窗分析等) - 流计算核心功能之一》

https://github.com/digoal/blog/blob/master/201803/20180301_03.md

3、《PostgreSQL 任意列组合条件 行数估算 实践 - 采样估算》

https://github.com/digoal/blog/blob/master/201804/20180403_03.md

4、《妙用explain Plan Rows快速估算行》

https://github.com/digoal/blog/blob/master/201509/20150919_02.md

5、《PostgreSQL pg_stats used to estimate top N freps values and explain rows》

https://github.com/digoal/blog/blob/master/201308/20130811_01.md

6、HLL估值,滑窗分析

https://github.com/aggregateknowledge/postgresql-hll

https://github.com/digoal/blog/blob/master/201302/20130226_01.md

https://github.com/digoal/blog/blob/master/201302/20130227_01.md

https://github.com/digoal/blog/blob/master/201302/20130228_01.md

第6期:用户画像系统实践

知识点:标签聚合计算,varbit插件, 异步消费, BIT位计算, dblink异步并行

本期视频讲解

相关链接:

1、《阿里云RDS for PostgreSQL varbitx插件与实时画像应用场景介绍》

https://github.com/digoal/blog/blob/master/201705/20170502_01.md

2、《基于 阿里云RDS PostgreSQL 打造实时用户画像推荐系统》

https://github.com/digoal/blog/blob/master/201610/20161021_01.md

3、《阿里云RDS PostgreSQL varbitx实践 - 流式标签 (阅后即焚流式批量计算) - 万亿级,任意标签圈人,毫秒响应》

https://github.com/digoal/blog/blob/master/201712/20171212_01.md

4、《惊天性能!单RDS PostgreSQL实例 支撑 2000亿 - 实时标签透视案例 (含dblink异步并行调用)》

https://github.com/digoal/blog/blob/master/201712/20171223_01.md

5、《PostgreSQL 多维空间几何对象 相交、包含 高效率检索实践 - cube》

6、《PostgreSQL 相似人群圈选,人群扩选,向量相似 使用实践 - cube》

7、Roaring bitmap 圈选

《Greenplum roaring bitmap与业务场景 (类阿里云RDS PG varbitx, 应用于海量用户 实时画像和圈选、透视)》

《PostgreSQL (varbit, roaring bitmap) VS pilosa(bitmap库)》

《Roaring Bitmap - A better compressed bitset》

第7期:PostgreSQL 并行计算

知识点:并行计算、优化器参数、内置并行与异步并行、自定义并行聚合函数

本期视频讲解

相关链接:

1、并行计算算法

《PostgreSQL 11 并行计算算法,参数,强制并行度设置》

《PostgreSQL 9.6 并行计算 优化器算法浅析》

《PostgreSQL 9.6 并行计算 优化器算法浅析 - 以及如何强制并行度》

《PostgreSQL 9.6 引领开源数据库攻克多核并行计算难题》

《分析加速引擎黑科技 - LLVM、列存、多核并行、算子复用 大联姻 - 一起来开启PostgreSQL的百宝箱》

2、PG 10 并行计算增强

《PostgreSQL 10.0 preview 功能增强 - 逻辑复制支持并行COPY初始化数据》

《PostgreSQL 10.0 preview 多核并行增强 - 控制集群并行度》

《PostgreSQL 10.0 preview 多核并行增强 - 索引扫描、子查询、VACUUM、fdw/csp钩子》

《PostgreSQL 10.0 preview sharding增强 - 支持Append节点并行》

《PostgreSQL 10.0 preview 多核并行增强 - 并行hash join支持shared hashdata, 节约哈希表内存提高效率》

《PostgreSQL 10.0 preview sharding增强 - postgres_fdw 多节点异步并行执行》

《PostgreSQL 10.0 preview 多核并行增强 - tuplesort 多核并行创建索引》

3、PG 11并行计算增强

《PostgreSQL 11 preview - 并行计算 增强 汇总》

《PostgreSQL 11 preview - 分区表智能并行聚合、分组计算(已类似MPP架构,性能暴增)》

《PostgreSQL 11 preview - Parallel Append(包括 union all\分区查询) (多表并行计算) sharding架构并行计算核心功能之一》

《PostgreSQL 11 preview - 并行排序、并行索引 (性能线性暴增) 单实例100亿TOP-K仅40秒》

《PostgreSQL 11 preview - 分区表智能并行JOIN (已类似MPP架构,性能暴增)》

4、并行计算压测(版本10)

《HTAP数据库 PostgreSQL 场景与性能测试之 23 - (OLAP) 并行计算》

5、dblink 异步调用并行计算

《PostgreSQL dblink异步调用实现 并行hash分片JOIN - 含数据交、并、差 提速案例 - 含dblink VS pg 11 parallel hash join VS pg 11 智能分区JOIN》

《惊天性能!单RDS PostgreSQL实例 支撑 2000亿 - 实时标签透视案例 (含dblink异步并行调用)》

《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 2 - 单机分区表 (dblink 异步调用并行) (4亿图像)》

《PostgreSQL dblink异步调用实践,跑并行多任务 - 例如开N个并行后台任务创建索引, 开N个后台任务跑若干SQL》

《阿里云RDS PostgreSQL OSS 外部表实践 - (dblink异步调用封装并行) 从OSS并行导入数据》

《PostgreSQL 变态并行拉取单表的方法 - 按块并行(按行号(ctid)并行) + dblink 异步调用》

《PostgreSQL VOPS 向量计算 + DBLINK异步并行 - 单实例 10亿 聚合计算跑进2秒》

《PostgreSQL 相似搜索分布式架构设计与实践 - dblink异步调用与多机并行(远程 游标+记录 UDF实例)》

《阿里云RDS PostgreSQL OSS 外部表实践 - (dblink异步调用封装并行) 数据并行导出到OSS》

《PostgreSQL 多维、图像 欧式距离、向量距离、向量相似 查询优化 - cube,imgsmlr - 压缩、分段、异步并行》

6、函数并行计算,聚合函数多阶段并行计算

《PostgreSQL 11 preview - 多阶段并行聚合array_agg, string_agg》

《PostgreSQL Oracle 兼容性之 - 自定义并行聚合函数 PARALLEL_ENABLE AGGREGATE》

《PostgreSQL 10 自定义并行计算聚合函数的原理与实践 - (含array_agg合并多个数组为单个一元数组的例子)》

7、GPU并行计算

《PostgreSQL GPU 加速(HeteroDB pg_strom) (GPU计算, GPU-DIO-Nvme SSD, 列存, GPU内存缓存)》

8、其他

《PostgreSQL 大版本升级方法之一 - 不落地并行导出导入》

《PostGIS 地理信息、栅格数据 多核并行处理(st_memunion, st_union)》

《PostgreSQL 如何让 列存(外部列存) 并行起来》

《PostgreSQL 多路并行 xlog 设计》

《PostgreSQL pg_basebackup 并行压缩备份》

《PostgreSQL 并行逻辑备份与一致性讲解 - PostgreSQL 9.3 parallel pg_dump》

第8期:PostgreSQL 简单空间应用实践

知识点:GiST索引,BRIN索引,BTREE索引。cluster,geometry类型,GEOHASH。近邻搜索,点面判断,电子围栏。空间索引结构

本期视频讲解

相关链接:

1、《PostgreSQL 黑科技 - 空间聚集存储, 内窥GIN, GiST, SP-GiST索引》

https://github.com/digoal/blog/blob/master/201709/20170905_01.md

2、《PostGIS空间索引(GiST、BRIN、R-Tree)选择、优化 - 阿里云RDS PostgreSQL最佳实践》

https://github.com/digoal/blog/blob/master/201708/20170820_01.md

3、《万亿级电商广告 - brin黑科技带你(最低成本)玩转毫秒级圈人(视觉挖掘姊妹篇) - 阿里云RDS PostgreSQL, HybridDB for PostgreSQL最佳实践》

https://github.com/digoal/blog/blob/master/201708/20170823_01.md

4、《PostgreSQL 物流轨迹系统数据库需求分析与设计 - 包裹侠实时跟踪与召回》

https://github.com/digoal/blog/blob/master/201704/20170418_01.md

5、《菜鸟末端轨迹(解密支撑每天251亿个包裹的数据库) - 阿里云RDS PostgreSQL最佳实践》

https://github.com/digoal/blog/blob/master/201708/20170803_01.md

6、《HTAP数据库 PostgreSQL 场景与性能测试之 29 - (OLTP) 空间应用 - 高并发空间位置更新(含空间索引)》

https://github.com/digoal/blog/blob/master/201711/20171107_30.md

7、《HTAP数据库 PostgreSQL 场景与性能测试之 5 - (OLTP) 空间应用 - 空间包含查询(表内多边形 包含 输入空间对象)》

https://github.com/digoal/blog/blob/master/201711/20171107_06.md

8、《HTAP数据库 PostgreSQL 场景与性能测试之 6 - (OLTP) 空间应用 - KNN查询(搜索附近对象,由近到远排序输出)》

https://github.com/digoal/blog/blob/master/201711/20171107_07.md

9、《PostgreSQL 空间切割(st_split, ST_Subdivide)功能扩展 - 空间对象网格化 (多边形GiST优化)》

https://github.com/digoal/blog/blob/master/201710/20171005_01.md

10、《PostgreSQL 空间st_contains,st_within空间包含搜索优化 - 降IO和降CPU(bound box) (多边形GiST优化)》

https://github.com/digoal/blog/blob/master/201710/20171004_01.md

11、《PostgreSQL multipolygon 空间索引查询过滤精简优化 - IO,CPU放大优化》

https://github.com/digoal/blog/blob/master/201711/20171122_03.md

12、《PostgreSQL 电子围栏的应用场景和性能(大疆、共享设备、菜鸟。。。)》

https://github.com/digoal/blog/blob/master/201710/20171031_01.md

《PostgreSQL 空间聚合性能 - 行政区、电子围栏 空间聚合 - 时间、空间热力图》

《PostgreSQL 生成空间热力图》

《HTAP数据库 PostgreSQL 场景与性能测试之 47 - (OLTP) 空间应用 - 高并发空间位置更新、多属性KNN搜索并测(含空间索引)末端配送、新零售类项目》

第9期:PostgreSQL 时空业务实践

知识点:时空partial index,时空搜索。空间复合索引。

本期视频讲解

相关链接:

1、《空间复合索引加速空间搜索》

https://github.com/digoal/blog/blob/master/201706/20170620_01.md

2、《时间+空间 实时多维数据透视》

https://github.com/digoal/blog/blob/master/201704/20170413_02.md

3、《PostgreSQL\GPDB 毫秒级海量 时空数据透视 典型案例分享》

https://github.com/digoal/blog/blob/master/201706/20170629_01.md

4、《时间、空间、对象多维属性 海量数据任意多维 高效检索 - 阿里云RDS PostgreSQL最佳实践》

https://github.com/digoal/blog/blob/master/201707/20170722_01.md

5、《(新零售)商户网格化(基于位置GIS)运营 - 阿里云RDS PostgreSQL、HybridDB for PostgreSQL最佳实践》

https://github.com/digoal/blog/blob/master/201708/20170802_02.md

《PostgreSQL pipelinedb 流计算插件 - IoT应用 - 实时轨迹聚合》

《PostgreSQL 实时位置跟踪+轨迹分析系统实践 - 单机顶千亿轨迹/天》

《PostgreSQL + PostGIS 时态分析》

《HTAP数据库 PostgreSQL 场景与性能测试之 47 - (OLTP) 空间应用 - 高并发空间位置更新、多属性KNN搜索并测(含空间索引)末端配送、新零售类项目》

《PostgreSQL IoT,车联网 - 实时轨迹、行程实践 2 - (含index only scan类聚簇表效果)》

《PostgreSQL IoT,车联网 - 实时轨迹、行程实践 1》

第10期:PostgreSQL 时空数据调度实践

知识点:近邻查询,拼车,空间热点消除

本期视频讲解

相关链接:

1、《滴滴打车派单系统思考 数据库设计与实现》

https://github.com/digoal/blog/blob/master/201804/20180414_03.md

2、《PostgreSQL 滴滴派单 高峰区域集中打车冲突优化1 - 宇宙大爆炸理论与PostgreSQL实践》

https://github.com/digoal/blog/blob/master/201804/20180416_02.md

3、《为什么geometry+GIST 比 geohash+BTREE更适合空间搜索 - 多出的不仅仅是20倍性能提升》

https://github.com/digoal/blog/blob/master/201804/20180417_01.md

第11期:PostgreSQL 在社交应用领域的最佳实践

知识点:关系数据,大V热点,正反向关系,计数器缓存

本期视频讲解

相关链接:

1、《PCC性能大赛 - facebook\微博 like场景 - 数据库设计与性能压测》

https://github.com/digoal/blog/blob/master/201705/20170512_02.md

2、《facebook linkbench 测试PostgreSQL社交关系图谱场景性能》

https://github.com/digoal/blog/blob/master/201609/20160911_01.md

3、《PostgreSQL 社交类好友关系系统实践 - 正反向关系查询加速》

https://github.com/digoal/blog/blob/master/201803/20180302_01.md

第12期:PostgreSQL 物联网最佳实践

知识点:时序数据特性,SCHEMAless设计思路,递归调用,规则,流式计算,滑窗聚合

本期视频讲解

相关链接:

1、《时序数据合并场景加速分析和实现 - 复合索引,窗口分组查询加速,变态递归加速》

https://github.com/digoal/blog/blob/master/201611/20161128_01.md

2、《PostgreSQL 证券行业数据库需求分析与应用》

https://github.com/digoal/blog/blob/master/201704/20170417_01.md

3、《PostgreSQL 海量时序数据(任意滑动窗口实时统计分析) - 传感器、人群、物体等对象跟踪》

https://github.com/digoal/blog/blob/master/201707/20170705_01.md

4、《时序业务,求每个传感器、对象的最新值(从7秒到7毫秒的优化之旅) - 阿里云RDS PostgreSQL最佳实践》

https://github.com/digoal/blog/blob/master/201708/20170823_02.md

5、《泛电网系统 海量实时计算+OLTP+OLAP DB设计 - 阿里云(RDS、HybridDB) for PostgreSQL最佳实践》

https://github.com/digoal/blog/blob/master/201708/20170826_01.md

6、《PostgreSQL 在铁老大订单系统中的schemaless设计和性能压测》

https://github.com/digoal/blog/blob/master/201709/20170927_03.md

《PostgreSQL pipelinedb 流计算插件 - IoT应用 - 实时轨迹聚合》

《HTAP数据库 PostgreSQL 场景与性能测试之 33 - (OLAP) 物联网 - 线性字段区间实时统计》

《HTAP数据库 PostgreSQL 场景与性能测试之 27 - (OLTP) 物联网 - FEED日志, 流式处理 与 阅后即焚 (CTE)》

《HTAP数据库 PostgreSQL 场景与性能测试之 24 - (OLTP) 物联网 - 时序数据并发写入(含时序索引BRIN)》

《HTAP数据库 PostgreSQL 场景与性能测试之 15 - (OLTP) 物联网 - 查询一个时序区间的数据》

《SQL流式案例 - 旋转门压缩(前后计算相关滑窗处理例子)》

《PostgreSQL 三角函数的用法举例 - 已知3点求任意夹角(旋转门续)》

《旋转门数据压缩算法在PostgreSQL中的实现 - 流式压缩在物联网、监控、传感器等场景的应用》

https://commitfest.postgresql.org/21/1294/

第13期:PostgreSQL 图式关系数据应用实践

知识点:图式关系、递归查询、广度优先搜索

本期视频讲解

相关链接:

1、《PostgreSQL 家谱、族谱类应用实践 - 图式关系存储与搜索》

https://github.com/digoal/blog/blob/master/201804/20180408_03.md

2、《金融风控、公安刑侦、社会关系、人脉分析等需求分析与数据库实现 - PostgreSQL图数据库场景应用》

https://github.com/digoal/blog/blob/master/201612/20161213_01.md

3、《PostgreSQL 图式搜索(graph search)实践 - 百亿级图谱,毫秒响应》

https://github.com/digoal/blog/blob/master/201801/20180102_04.md

4、《PostgreSQL 递归妙用案例 - 分组数据去重与打散》

https://github.com/digoal/blog/blob/master/201804/20180406_01.md

5、《PostgrSQL 递归SQL的几个应用 - 极客与正常人的思维》

https://github.com/digoal/blog/blob/master/201705/20170519_01.md

《PostgreSQL 图式搜索(graph search)实践 - 百亿级图谱,毫秒响应》

第14期:PostgreSQL 数据清洗、采样、脱敏、批处理、合并

知识点:数据清洗、去重、采样、脱敏、批处理、合并

本期视频讲解

相关链接:

1、数据采样和脱敏实践

《PostgreSQL 数据采样与脱敏》

https://github.com/digoal/blog/blob/master/201706/20170602_02.md

《PostgreSQL 巧妙的数据采样方法》

https://github.com/digoal/blog/blob/master/201609/20160929_01.md

2、数据清洗和去重实践

《PostgreSQL 数据去重方法大全》

https://github.com/digoal/blog/blob/master/201706/20170602_01.md

《PostgreSQL 重复 数据清洗 优化教程》

https://github.com/digoal/blog/blob/master/201612/20161230_01.md

《车联网案例,轨迹清洗 - 阿里云RDS PostgreSQL最佳实践 - 窗口函数》

https://github.com/digoal/blog/blob/master/201707/20170722_02.md

《PostgreSQL 分区表、继承表 记录去重方法》

《PostgreSQL 递归妙用案例 - 分组数据去重与打散》

3、《数据入库实时转换 - trigger , rule》

https://github.com/digoal/blog/blob/master/201706/20170619_02.md

4、《PostgreSQL 如何实现批量更新、删除、插入》

https://github.com/digoal/blog/blob/master/201704/20170424_05.md

5、《PostgreSQL upsert功能(insert on conflict do)的用法》

https://github.com/digoal/blog/blob/master/201704/20170424_04.md

6、《PostgreSQL 如何实现upsert与新旧数据自动分离》

https://github.com/digoal/blog/blob/master/201605/20160524_02.md

7、《PostgreSQL 数据rotate用法介绍 - 按时间覆盖历史数据》

https://github.com/digoal/blog/blob/master/201703/20170321_02.md

8、《PostgreSQL rotate table 自动清理调度 - 约束,触发器》

https://github.com/digoal/blog/blob/master/201803/20180311_06.md

9、《PostgreSQL 相似文本检索与去重 - (银屑病怎么治?银屑病怎么治疗?银屑病怎么治疗好?银屑病怎么能治疗好?)》

https://github.com/digoal/blog/blob/master/201803/20180329_01.md

第15期:PostgreSQL 新类型提高开发生产力

知识点:JSON, ARRAY, RANGE, 几何, roaring bitmap, varbitx, uuid, domain, 自定义复合类型, cube, imgsmlr, PostGIS, geometry, geograph, raster, ltree, 全文检索, smlar, 自定义底层类型

本期视频讲解

相关链接:

https://www.postgresql.org/docs/11/datatype.html

多值字段(数组、多重含义数组、全文检索) + 单值字段 组合查询加速案例

1、《PostgreSQL 店铺运营实践 - JSON[]数组 内部标签数据等值、范围检索100倍+加速示例 (含,单值+多值列合成)》

https://github.com/digoal/blog/blob/master/201802/20180208_01.md

《PostgreSQL 随机记录返回 - 300倍提速实践 (随机数组下标代替order by random())》

《PostgreSQL 电商业务(任意维度商品圈选应用) - json包range数组的命中优化 - 展开+索引优化》

《PostgreSQL ADHoc(任意字段组合)查询(rums索引加速) - 非字典化,普通、数组等组合字段生成新数组》

2、《PostgreSQL UDF实现tsvector(全文检索), array(数组)多值字段与scalar(单值字段)类型的整合索引(类分区索引) - 单值与多值类型复合查询性能提速100倍+ 案例 (含,单值+多值列合成)》

https://github.com/digoal/blog/blob/master/201802/20180207_02.md

3、《PostgreSQL 多重含义数组检索与条件过滤 (标签1:属性, 标签n:属性) - 包括UPSERT操作如何修改数组、追加数组元素》

https://github.com/digoal/blog/blob/master/201801/20180124_02.md

4、《会议室预定系统实践 - PostgreSQL tsrange(时间范围类型) + 排他约束》

https://github.com/digoal/blog/blob/master/201712/20171223_02.md

5、《PostgreSQL 黑科技 range 类型及 gist index 20x+ speedup than Mysql index combine query》

https://github.com/digoal/blog/blob/master/201206/20120607_01.md

《PostgreSQL SELECT 的高级用法(CTE, LATERAL, ORDINALITY, WINDOW, SKIP LOCKED, DISTINCT, GROUPING SETS, ...) - 珍藏级》

《PostgreSQL Oracle 兼容性之 - nested table》

《导购系统 - 电商内容去重\内容筛选应用(实时识别转载\盗图\侵权?) - 文本、图片集、商品集、数组相似判定的优化和索引技术》

《Greenplum roaring bitmap与业务场景 (类阿里云RDS PG varbitx, 应用于海量用户 实时画像和圈选、透视)》

《阿里云RDS PostgreSQL varbitx实践 - 流式标签 (阅后即焚流式批量计算) - 万亿级,任意标签圈人,毫秒响应》

《阿里云RDS for PostgreSQL varbitx插件与实时画像应用场景介绍》

《地理位置画像、连锁店圈人、地理围栏圈人、多地圈选、multi-polygon圈选、多点圈选》

《PostgreSQL 多维、图像 欧式距离、向量距离、向量相似 查询优化 - cube,imgsmlr - 压缩、分段、异步并行》

《PostgreSQL 相似人群圈选,人群扩选,向量相似 使用实践 - cube》

相似人群圈选-视频讲解

《PostgreSQL 多维空间几何对象 相交、包含 高效率检索实践 - cube》

《PostgreSQL cube 插件 - 多维空间对象》

多维空间计算视频讲解

《PostgreSQL 相似搜索插件介绍大汇总 (cube,rum,pg_trgm,smlar,imgsmlr,pg_similarity) (rum,gin,gist)》

《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 3 - citus 8机128shard (4亿图像)》

《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 2 - 单机分区表 (dblink 异步调用并行) (4亿图像)》

《PostgreSQL 11 相似图像搜索插件 imgsmlr 性能测试与优化 1 - 单机单表 (4亿图像)》

《海量数据,海明(simhash)距离高效检索(smlar) - 阿里云RDS PosgreSQL最佳实践》

《PostgreSQL结合余弦、线性相关算法 在文本、图片、数组相似 等领域的应用 - 3 rum, smlar应用场景分析》

《PostgreSQL结合余弦、线性相关算法 在文本、图片、数组相似 等领域的应用 - 2 smlar插件详解》

《PostgreSQL结合余弦、线性相关算法 在文本、图片、数组相似 等领域的应用 - 1 文本(关键词)分析理论基础 - TF(Term Frequency 词频)/IDF(Inverse Document Frequency 逆向文本频率)》

《PostgreSQL 树状数据存储与查询(非递归) - Use ltree extension deal tree-like data type》

《经营、销售分析系统DB设计之PostgreSQL, Greenplum - 共享充电宝 案例实践》



相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
4天前
|
Cloud Native 安全 API
云原生架构下的微服务治理策略与实践####
—透过云原生的棱镜,探索微服务架构下的挑战与应对之道 本文旨在探讨云原生环境下,微服务架构所面临的关键挑战及有效的治理策略。随着云计算技术的深入发展,越来越多的企业选择采用云原生架构来构建和部署其应用程序,以期获得更高的灵活性、可扩展性和效率。然而,微服务架构的复杂性也带来了服务发现、负载均衡、故障恢复等一系列治理难题。本文将深入分析这些问题,并提出一套基于云原生技术栈的微服务治理框架,包括服务网格的应用、API网关的集成、以及动态配置管理等关键方面,旨在为企业实现高效、稳定的微服务架构提供参考路径。 ####
24 5
|
7天前
|
监控 Go API
Go语言在微服务架构中的应用实践
在微服务架构的浪潮中,Go语言以其简洁、高效和并发处理能力脱颖而出,成为构建微服务的理想选择。本文将探讨Go语言在微服务架构中的应用实践,包括Go语言的特性如何适应微服务架构的需求,以及在实际开发中如何利用Go语言的特性来提高服务的性能和可维护性。我们将通过一个具体的案例分析,展示Go语言在微服务开发中的优势,并讨论在实际应用中可能遇到的挑战和解决方案。
|
5天前
|
负载均衡 监控 Cloud Native
云原生架构下的微服务治理策略与实践####
在数字化转型浪潮中,企业纷纷拥抱云计算,而云原生架构作为其核心技术支撑,正引领着一场深刻的技术变革。本文聚焦于云原生环境下微服务架构的治理策略与实践,探讨如何通过精细化的服务管理、动态的流量调度、高效的故障恢复机制以及持续的监控优化,构建弹性、可靠且易于维护的分布式系统。我们将深入剖析微服务治理的核心要素,结合具体案例,揭示其在提升系统稳定性、扩展性和敏捷性方面的关键作用,为读者提供一套切实可行的云原生微服务治理指南。 ####
|
5天前
|
消息中间件 缓存 Cloud Native
云原生架构下的性能优化实践与挑战####
随着企业数字化转型的加速,云原生架构以其高度解耦、弹性伸缩和快速迭代的特性,成为现代软件开发的首选模式。本文深入探讨了云原生环境下性能优化的关键策略与面临的主要挑战,通过案例分析,揭示了如何有效利用容器化、微服务、动态调度等技术手段提升应用性能,同时指出了在复杂云环境中确保系统稳定性和高效性的难题,为开发者和架构师提供了实战指南。 ####
18 3
|
6天前
|
运维 Kubernetes Cloud Native
深入理解云原生架构:从理论到实践
【10月更文挑战第38天】本文将引导读者深入探索云原生技术的核心概念,以及如何将这些概念应用于实际的软件开发和运维中。我们将从云原生的基本定义出发,逐步展开其背后的设计哲学、关键技术组件,并以一个具体的代码示例来演示云原生应用的构建过程。无论你是云原生技术的初学者,还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和实操指南。
|
5天前
|
Kubernetes Cloud Native 持续交付
云原生技术在现代应用架构中的实践与思考
【10月更文挑战第38天】随着云计算的不断成熟和演进,云原生(Cloud-Native)已成为推动企业数字化转型的重要力量。本文从云原生的基本概念出发,深入探讨了其在现代应用架构中的实际应用,并结合代码示例,展示了云原生技术如何优化资源管理、提升系统弹性和加速开发流程。通过分析云原生的优势与面临的挑战,本文旨在为读者提供一份云原生转型的指南和启示。
19 3
|
5天前
|
运维 Kubernetes Cloud Native
云原生技术在现代应用架构中的实践与挑战####
本文深入探讨了云原生技术的核心概念、关键技术组件及其在实际项目中的应用案例,分析了企业在向云原生转型过程中面临的主要挑战及应对策略。不同于传统摘要的概述性质,本摘要强调通过具体实例揭示云原生技术如何促进应用的灵活性、可扩展性和高效运维,同时指出实践中需注意的技术债务、安全合规等问题,为读者提供一幅云原生技术实践的全景视图。 ####
|
8天前
|
监控 API 持续交付
后端开发中的微服务架构实践与挑战####
本文深入探讨了微服务架构在后端开发中的应用,分析了其优势、面临的挑战以及最佳实践策略。不同于传统的单体应用,微服务通过细粒度的服务划分促进了系统的可维护性、可扩展性和敏捷性。文章首先概述了微服务的核心概念及其与传统架构的区别,随后详细阐述了构建微服务时需考虑的关键技术要素,如服务发现、API网关、容器化部署及持续集成/持续部署(CI/CD)流程。此外,还讨论了微服务实施过程中常见的问题,如服务间通信复杂度增加、数据一致性保障等,并提供了相应的解决方案和优化建议。总之,本文旨在为开发者提供一份关于如何在现代后端系统中有效采用和优化微服务架构的实用指南。 ####
|
10天前
|
消息中间件 设计模式 运维
后端开发中的微服务架构实践与挑战####
本文深入探讨了微服务架构在现代后端开发中的应用,通过实际案例分析,揭示了其在提升系统灵活性、可扩展性及促进技术创新方面的显著优势。同时,文章也未回避微服务实施过程中面临的挑战,如服务间通信复杂性、数据一致性保障及部署运维难度增加等问题,并基于实践经验提出了一系列应对策略,为开发者在构建高效、稳定的微服务平台时提供有价值的参考。 ####
|
10天前
|
Cloud Native API 云计算
云原生架构的深度探索与实践####
本文深入探讨了云原生架构的核心概念、技术特点及其在现代软件开发中的应用实践。通过分析云原生架构如何促进企业数字化转型,提升业务敏捷性与可扩展性,本文旨在为读者提供一个全面而深入的理解框架。我们将从云原生的定义出发,逐步深入到其关键技术组件、最佳实践案例及面临的挑战与解决方案,为开发者和企业决策者提供宝贵的参考与启示。 ####

热门文章

最新文章