一、支持的场景
以下为Dataphin+Hologres的两个典型场景:
1. 使用Hologres进行高效的分析,提升分析体验与效率
a. 在MaxCompute中构建基础公共层,降低数据加工和存储的成本
b. 将加工好的数据通过数据集成或者外表的方式推送到Hologres中,构建集市层用于即席分析或进行调度,提升数据分析的效率和产出效率
c. Hologres的表可在数据资产目录中展示,并可展示血缘信息,表结构信息及分区信息
d. 通过Dataphin提供的功能进行统一的数据标准的管理、数据标准的落标和稽核,也可配置质量稽核规则,并通过安全的分类分级,进行数据脱敏或加密。
2. Dataphin + Hologres构建实时数仓
a. 使用Hologres实时数仓为批流统一的存储层
b. 通过Dataphin的项目绑定Hologres离线计算引擎及阿里云实时计算Flink引擎,可使用Flink,流式读取Hologres源表,并可将Hologres表作为维表进行查询,也可以将数据写入Hologres结果表构建实时数仓
c. 利用Hologres SQL或者Flink SQL批模式构建批链路,可用于回刷及覆盖结果
d. Hologres的表可在数据资产目录中展示,并可展示血缘信息,表结构信息及分区信息
e. 通过Dataphin提供的功能进行统一的数据标准的管理、数据标准的落标和稽核,也可配置质量稽核规则,并通过安全的分类分级,进行数据脱敏或加密。
二、配置Hologres项目
通过简单的几步,您就可以开始使用Dataphin进行Hologres的研发。
- 创建Hologres计算引擎
- 绑定Hologres计算引擎
- 将数据替同步到Hologres中
- 创建Hologres SQL任务,即可开始Hologres的数据查询或数据处理
- 查看Hologres表资产
三、支持的功能模块
除了支持基本的Hologres SQL任务外,Dataphin还对Hologres做了以下的能力适配:
● 增强的研发体验:
○ 支持将外部数据集成到到Hologres项目中,也支持将Hologres项目中的数据导出到其他数据源
○ 实时研发支持直接访问Hologres计算源中的物理表
● 统一的资产管理
○ 资产目录中可搜索、查看Hologres 计算源的数据资产,查看预览数据,质量 报告,以及Hologres的血缘和产出信息
○ 可在Dataphin内进行统一的数据权限管控,支持表及字段级的权限管控
● 资产治理加持,保障数据质量
○ 可对Hologres的数据资产进行落标映射及稽核
○ 可对Hologres的数据资产进行质量监控
○ 可对Hologres的数据资产进行自动分类分级及查询脱敏(仅支持部分脱敏规则)
● 资产服务化
○ 配置为Dataphin数据源时可选择Hologres 计算源内的表
四、未来展望
相较于MaxCompute离线数据加工,Hologres的分析及数据加工处理的会更加高效。未来Dataphin也会将Hologres的能力扩展,如将Hologres的表配置为数据服务API,也可将Hologres引擎用于标签生产或标签画像的查看等场景,提升用户体验。
瓴羊Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。