作者:阿里云数据库OLAP产品部 苇度
业务背景
随着精细化运营的深入,企业内多业务间的数据关联分析越来越复杂,比如数据在业务上下游之间传递,或者一份公共数据被多个业务共用。为确保各自业务的隔离性和资源独享,企业倾向在云上创建多业务实例并独立管理。那么想要进行同一份数据的流转,就需要将数据在实例间进行多次复制,极大的降低了企业分析效率并增加数据运维的复杂度。在数据移动的过程中,也会出现数据冗余,数据不一致,数据缺乏实效性,甚至数据正确性的问题。由于复杂的数据流转成本,企业迟迟无法真正打破数据孤岛。
数据共享
云原生数据仓库AnalyticDB PostgreSQL版(以下简称ADB PG)率先在国内推出数据共享能力,使构建在ADB PG上的数仓可以安全、快速的构建实例间的实时数据共享,无需任何数据移动。
数据共享能力缓解了企业为避免数据隔离而进行的架构过度设计,现在企业可以面向业务进行Serverless的资源创建,而当业务需要进行关联数据分析时,可快速创建数据共享,秒级实现数据的打通,彻底解决数据规划难,流转难,运维难的问题,从平台层助力打破数据孤岛。
ADB PG的数据共享服务有三个核心亮点:
- 无任何数据冗余:数据共享能力没有数据的拷贝,而是通过统一管理的元数据,使消费者可访问生产者实例中的数据,实现只存储一份数据,不占用额外存储空间
- 体验简单,安全可控:使用数据共享,用户可在几分钟内通过简单几步的在数据生产端创建数据共享和授权,消费端将数据共享导入即可开始数据分析。整个链路为白名单模式,仅有被授权的消费端才可访问,防止任何数据泄露
- 实时数据共享:生产者实例中数据源的改动会在消费者实例中实时可用,大幅提升了数据分析的时效性
在应用场景上,通过数据共享可以极大的优化两个核心业务场景
第一,可以将访问共享数据的工作负载彼此隔离。
- 在中心辐射型业务模型中,在ETL集群处理完数据后,可以将数据共享给多个不同用途的BI分析集群,这些BI集群可以根据性能需求调整集群大小,并做到彼此资源隔离
- 在新业务迭代开发中,可以在开发、测试集群中获取生产集群的数据,在真实的业务负载中进行新业务的开发测试工作,避免对业务数据模拟不准带来业务上线的问题
第二,可以进行跨业务的协作,数据可以在业务线、客户组、业务组之间进行共享。
- 比如有多个不同的业务线在不同的ADB PG集群中运行,但在进行用户画像或综合业务分析时,需要将同步业务数据综合在一起
- 其次,我们的部分用户将他们的客户划分成组,将不同客户组的业务放到同构的ADB PG集群中运行,但在客户组间存在关联业务,这些用户也不得不将部分数据拷贝到一起
- 此外,在组织内部不同业务组之间也需要共享访问同一份数据,数据研发、销售、运营、财务等部门需要共享数据
在以上场景中,ADB PG数据共享能够提供完整而方便的数据解决方案,无需复制或移动数据,即可进行即时、方便、快速的数据访问。打破数据孤岛,解决数据难流转、难使用的问题。
下面将详细演示AnalyticDB PostgreSQL数据共享的使用方法。
1、跨实例共享数据
2、多样化的共享拓扑
3、跨实例联合查询
4、近似本地的查询性能
5、自动感知共享对象变化
6、表的隔离和业务延续性
7、自动感知授权变化