数据建设与治理丨Dataphin中如何进行Hologres开发

简介: 前言:在Dataphin 3.9中新增支持Hologres引擎的适配。Hologres是一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving)。通过Dataphin的研发平台能力以及数据资产治理能力,可提供更好的即席分析及实时数仓的构建能力。

一、支持的场景

以下为Dataphin+Hologres的两个典型场景:

1.      使用Hologres进行高效的分析,提升分析体验与效率

a.      MaxCompute中构建基础公共层,降低数据加工和存储的成本

b.      将加工好的数据通过数据集成或者外表的方式推送到Hologres中,构建集市层用于即席分析或进行调度,提升数据分析的效率和产出效率

c.      Hologres的表可在数据资产目录中展示,并可展示血缘信息,表结构信息及分区信息

d.      通过Dataphin提供的功能进行统一的数据标准的管理、数据标准的落标和稽核,也可配置质量稽核规则,并通过安全的分类分级,进行数据脱敏或加密。

20230518143742.jpg

2.      Dataphin + Hologres构建实时数仓

a.      使用Hologres实时数仓为批流统一的存储层

b.      通过Dataphin的项目绑定Hologres离线计算引擎及阿里云实时计算Flink引擎,可使用Flink,流式读取Hologres源表,并可将Hologres表作为维表进行查询,也可以将数据写入Hologres结果表构建实时数仓

c.      利用Hologres SQL或者Flink SQL批模式构建批链路,可用于回刷及覆盖结果

d.      Hologres的表可在数据资产目录中展示,并可展示血缘信息,表结构信息及分区信息

e.      通过Dataphin提供的功能进行统一的数据标准的管理、数据标准的落标和稽核,也可配置质量稽核规则,并通过安全的分类分级,进行数据脱敏或加密。

22.jpg


二、配置Hologres项目

通过简单的几步,您就可以开始使用Dataphin进行Hologres的研发。

  1. 创建Hologres计算引擎


  1. 绑定Hologres计算引擎


  1. 将数据替同步到Hologres中


  1. 创建Hologres SQL任务,即可开始Hologres的数据查询或数据处理


  1. 查看Hologres表资产


三、支持的功能模块

除了支持基本的Hologres SQL任务外,Dataphin还对Hologres做了以下的能力适配:

●    增强的研发体验

○    支持将外部数据集成到到Hologres项目中,也支持将Hologres项目中的数据导出到其他数据源

○    实时研发支持直接访问Hologres计算源中的物理表

●    统一的资产管理

○    资产目录中可搜索、查看Hologres 计算源的数据资产,查看预览数据,质量 报告,以及Hologres的血缘和产出信息

○    可在Dataphin内进行统一的数据权限管控,支持表及字段级的权限管控


●    资产治理加持,保障数据质量

○    可对Hologres的数据资产进行落标映射及稽核

○    可对Hologres的数据资产进行质量监控

○    可对Hologres的数据资产进行自动分类分级及查询脱敏(仅支持部分脱敏规则)

●    资产服务化

○    配置为Dataphin数据源时可选择Hologres 计算源内的表


四、未来展望

相较于MaxCompute离线数据加工,Hologres的分析及数据加工处理的会更加高效。未来Dataphin也会将Hologres的能力扩展,如将Hologres的表配置为数据服务API,也可将Hologres引擎用于标签生产或标签画像的查看等场景,提升用户体验。



Dataphin.png

瓴羊Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
6月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
387 2
|
8月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
622 0
|
6月前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
218 0
|
11月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
1029 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
8月前
|
SQL 运维 测试技术
Dataphin功能Tips系列(61) -空间名称变量:代码零改动实现开发与生产隔离
在数据开发中,为避免测试任务影响生产数据,开发者常通过“_dev”后缀区分环境,但发布时需手动修改代码。使用“空间名称变量”功能,可自动根据运行环境替换项目名,无需手动调整,实现开发与生产的无缝切换,提升效率与准确性。
165 8
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
395 0
|
10月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
229 8
|
12月前
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
674 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
|
9月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
150 0
|
11月前
|
分布式计算 监控 安全
产品评测|从数据标准到实时监控,深度解析Dataphin如何以智能提效与安全合规驱动企业数据价值释放
Dataphin是阿里巴巴基于OneData方法论打造的一站式数据治理与建设平台,帮助企业实现数据全生命周期管理。本文详细记录了使用Dataphin搭建离线数仓的全流程,包括环境准备、数仓规划、数据引入、处理、周期任务补数据、数据验证与分析等环节。体验中发现其离线管道任务、周期调度、补数据功能便捷高效,但也存在系统稳定性不足、文档更新滞后等问题。建议增强对JSON文件支持、优化资源推荐机制并完善脱敏操作功能,进一步提升用户体验。

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin