《智能数据建设与治理 Dataphin》的最佳实践

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 本文介绍了使用Dataphin进行离线数仓搭建的实操教程,涵盖从创建数据板块到数据分析的完整流程。内容包括登录控制台、配置计算源、创建离线管道、生成SQL语句、运行任务及验证数据等步骤。通过详细的操作指南和截图,帮助用户快速上手Dataphin,体验其强大的数据治理能力。总结中提到教程存在部分陈旧问题,建议加深对产品逻辑的理解以更好地掌握工具使用。

智能数据建设与治理 Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin提供多种计算平台支持及可拓展的开放能力,以适应各行业企业的平台技术架构和特定诉求。

实操操作

本文是通过Dataphin离线数仓搭建的【使用教程】来初体验产品功能,产品手册

image.png

领取免费试用,选择大数据计算-智能数据建设与治理Dataphin,立即试用(试用时长1个月),记得将例数据.csv下载至本地。

image.png

创建数据板块


登录Dataphin控制台,进入Dataphin首页

image.png

数据架构-新建数据板块

image.png

选择经典模式

image.png

按照实验给定的参数填入下列信息

image.png 第二部的逻辑表命名规范,教程没写,就全部默认确定

image.png

选择计算源-新增计算源

image.png

按照要求配置基本信息参数,记得点击测试连接

image.png

校验失败,看看报错,没有项目权限

image.png

尝试过各种RAM权限,用户授权等,通过和客服的帮助,确定需要在maxcompute创建全网名称一致的项目(先创建,而且名称不能一致)

image.png

登录到maxcompute控制台,创建项目

image.png

再按照上面的步骤创建计算源,创建成功

image.png

按照指导创建项目

image.png

数据集成-离线集成-创建离线管道-参数按照指导手册就行

image.png

组件库拖拽输入-输出获得下图

image.png

点击输入的齿轮体表,上传已经准备好的样例数据

image.png

点击maxcopmute的齿轮,按照指导配置参数

image.png

一键生成的sql如下:

create table `order` (
  `crt_ord_id` double comment 'order_id',
  `delivery_address_id` double comment '收货地址',
  `buyer_id` double comment '买家ID',
  `gmt_create` string comment '创建时间',
  `gmt_modified` string comment '修改时间',
  `order_time` string comment '下单时间',
  `pay_time` string comment '支付时间',
  `ship_time` string comment '发货时间',
  `end_time` string comment '交易完成/交易取消 时间',
  `total_items_amount` double comment '总商品金额,单价*件数',
  `discount_amount` double comment '总折扣金额,单位分',
  `delivery_amount` double comment '运费单位分',
  `total_amount` double comment '实付总金额单位分',
  `status` double comment '状态:-1已取消1新建2已支付3已发货4确认发货'
)
comment 'order'
lifecycle 3600

依次点击保存、运行、提交

image.png

检查通过,确认提交

image.png

手动运行集成任务,运维-手动任务-运行-确定

image.png

手动实例,运行成功

image.png

开发-表管理-新建物理表

image.png

添加物理表详情页面,单击右上角的从建表语句引入,输入下方代码,单击解析SQL,勾选buyer_id、discount_rate字段后,单击添加,最后单击提交,在提交对话框中,单击确定并提交,完成buyer_discount_rate的创建。

image.png

SQL语句

create table buyer_discount_rate
( 
buyer_id string comment '顾客ID',
discount_rate string  comment '折扣率'
) comment '过去一年每位顾客的平均折扣率' 

新建maxcompute计算任务,参数按手册填写

image.png 代码编辑器输入代码,保存,预编译-参数${yyyymmdd-365},运行-提交

image.png

设置输入参数${yyyymmdd-365}

image.png

单击自动解析,将添加的上游依赖生效关闭。然后再单击添加根节点按钮,将任务挂载到根节点。

image.png

检查通过,确认并提交

image.png

成功

image.png

周期补充任务

image.png

如图所示参数

image.png

运行成功

image.png

验证数据

image.png

SELECT * FROM buyer_discount_rate;

同上所属一样的,保存-预编译-运行

image.png

新建数据分析

image.png

完成实验

image.png

总结

不知道是哪个步骤出了问题,最后的结果没做出来。

  1. 示例教程有点老,没更新。跟实际测试不太一样,第一次接触有点费劲,研发-开发,等等名称不一样,找路径有点费劲。
  2. 这个东西还是太深,一次实验每太理解产品的逻辑,还得加深研究。

image.png

对这段每太理解,这没有示例,不知道挂载到根节点是个什么意思。

相关实践学习
Dataphin数据研发
学员将在Dataphin(数据治理产品)集成MySQL数据库进行数据上云,然后利用Dataphin针对上云表进行规范建模。并通过规范建模生成的逻辑表针对需求进行指标/标签开发。
相关文章
|
数据采集 监控 数据管理
数据质量最佳实践(5):利用质量分和排行榜提升企业数据质量【Dataphin V3.12】
在数据质量最佳实践(3):通过质量治理工作台,实现质量问题的跟踪和处理这篇文章中,我们详细的介绍了如何通过治理工作台,对系统出现的一个一个具体质量问题进行治理。 但是对于企业整体的数据质量情况,我们该如何评估呢?以及如何寻找当前企业的数据质量短板,并有针对性的进行改进和提升呢? 在Dataphin V3.12版本中,质量新增了质量分的能力,可以给数据表和质量规则配置打分权重和打分方式,从而获得全局、数据源、项目、负责人、数据表等维度的质量打分评估,帮助CDO判断企业整体的数据质量情况和数据质量问题的分布,从而有针对性的提升企业整体的数据质量水平。
1002 1
|
机器学习/深度学习 SQL 安全
隐私计算最佳实践(1):如何基于Dataphin隐私计算实现广告精准营销、用户促活
我们在享受数据便利的同时,数据隐私安全问题也成为了困扰。Dataphin隐私计算可以帮助企业在遵循法律法规的要求下,既充分发挥数据的价值,同时又不会影响用户的数据隐私安全。
413 0
隐私计算最佳实践(1):如何基于Dataphin隐私计算实现广告精准营销、用户促活
|
数据采集 监控 数据管理
数据质量最佳实践(4):支持范围和多级分区质量监控+按项目和个人管理数据质量【Dataphin V3.11】
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在Dataphin V3.11版本中,质量新增了下面两个能力: 1、针对复杂的业务分区的校验能力 2、按照项目和个人管理数据质量
509 1
|
安全 数据处理 数据安全/隐私保护
数据安全最佳实践(7):通过多级安全分类构建业务安全体系【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了构建多级安全分类体系的能力,用于支持客户定制和使用行业化的数据分类分级体系。 同时我们支持了识别特征的管理,可以使用内置的手机、姓名等识别特征;也在安全模型中内置了通用行业模型,便于客户直接应用,实现对大部分个人敏感数据和部分业务数据的识别和保护。
1031 1
|
安全 调度 数据安全/隐私保护
数据安全最佳实践(6):敏感数据实时识别与批量保护【Dataphin V3.9】
在DataphinV3.9版本中,我们支持了敏感数据实时识别的能力,能够实时发现敏感数据并进行保护,形成了手动上传+周期识别+实时识别的完整敏感数据识别体系。 同时,我们在DataphinV3.9版本中,支持了给敏感数据批量配置脱敏策略,可以给没有单独配置脱敏策略的敏感数据进行批量的脱敏保护,从而确保敏感数据不泄露。
数据安全最佳实践(6):敏感数据实时识别与批量保护【Dataphin V3.9】
|
SQL API 开发者
数据服务最佳实践(2):利用API的多版本管理能力提升API管理效率【Dataphin V3.11】
在DataphinV3.11版本中,Dataphin支持了API开发多版本管理,对API变更过程进行记录和维护,便于追溯历史版本和保障下游调用不受影响。
651 0
|
SQL JSON 运维
数据服务最佳实践(1):支持注册外部API,打造企业数据服务中心【Dataphin V3.11】
在DataphinV3.11版本中,我们支持了注册外部API的能力,用于支持客户统一管理企业所有的API,打造企业的数据服务中心。API注册到Dataphin之后,可以由Dataphin统一纳管,和其他方式创建的API共用相同的服务市场、权限管控、运维监控能力。 同时我们支持了Json文本解析能力,支持编写类似正则表达式的语法定义注册API返回参数的取值路径,满足企业自定义取数的场景。
834 0
|
数据可视化 数据管理 数据挖掘
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——三、Dataphin 最佳实践:数字化转型标杆案例(上)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——三、Dataphin 最佳实践:数字化转型标杆案例(上)
201 0
|
数据采集 大数据 BI
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——三、Dataphin 最佳实践:数字化转型标杆案例(下)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——三、Dataphin 最佳实践:数字化转型标杆案例(下)
203 0
|
安全 数据管理 数据处理
数据安全最佳实践(5):手动指定敏感数据【Dataphin V3.8】
在基于数据分类分级和敏感数据保护,保障企业数据安全、如何基于Dataphin实现敏感数据保护(以消费者隐私保护为例)中,我们讲了通过对敏感数据进行分类分级的识别和通过脱敏进行敏感数据的保护。这里面最基础的工作,就是完成敏感数据的识别,并尽量保证数据识别的准确性。 Dataphin V3.8在原来按照规则自动识别敏感数据的基础之上,新增了手动指定敏感数据的能力,方便快速指定核心敏感数据和批量进行敏感数据管理。
数据安全最佳实践(5):手动指定敏感数据【Dataphin V3.8】