产品简介
Dataphin是集产品、技术、方法论于一体的智能数据建设与治理平台,致力于帮助企业构建标准化、资产化、服务化的数据中台体系。其基于阿里巴巴内部多年数据治理实践经验(OneData方法论)的云化输出,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力,致力于解决企业数据口径混乱、质量参差、协作低效等痛点,构建标准统一、安全可靠的数据资产体系。其核心价值在于通过规范建模、自动化代码生成、智能运维等功能,降低数据开发门槛,提升数据治理效率。
这是官网产品的链接,想了解有关产品的更多特性和案例可点击前往进行学习。智能数据建设与治理 Dataphin(Dataphin)
评测任务
考虑到数据中台产品对于多数用户来说不是太熟悉,基此,官方为本次测评专门准备了详细的操作部署文档Dataphin离线数仓搭建-试用教程,通过云起实验室的方式进行了呈现,还是非常不错的。此外,在产品官网文档中也是有本次评测任务相关的章节内容的,感兴趣的朋友可以点击前往进行学习,比起云起实验室的部署文档,官方文档的内容更加偏向理论和实践的结合,非常适合想弄懂原理的小伙伴。链接为离线数仓构建流程_智能数据建设与治理 Dataphin(Dataphin)。接下来我将按照云起实验室的部署文档逐个步骤进行体验。
如果新手用户对于部署文档不是很熟悉,也可以参考官方设计的新手引导进行本次任务体验,进入Dataphin管理控制台后,在右下角点击客服图标可唤醒如下功能:
选择“新手引导”,按照步骤依次进行,如下:
准备工作
体验正式开始前,需要先完成相关云资源和数据源的准备,如Dataphin开通与AccessKey配置、MaxCompute计算源的开通与配置、以及测试数据文件的下载。
开通智能数据建设与治理Dataphin
开通服务的方式有多种,比如直接进入产品官网,找到“免费试用”
点击“立即试用”即可
第二种方式就是直接使用部署文档给出的试用链接阿里云免费试用,在左侧导航栏找到大数据计算并勾选其下的数据开发和服务,如下:
在试用产品信息确认页面,选择产品所属地域,其他参数项保持默认即可,如下:
这里除了地域需要选择之外,其余的参数一定不要随便动,比如行级权限、元数据采集、元数据管理等增值模块,这些均需要额外收费。测评任务并没涉及到这些功能的使用,因此这里无需额外选择。
点击“立即试用”按钮后,首次会出现Dataphin部署模式选择页面,如下:
这里我们可以忽略,直接页面刷新即可,如下:
点击Access Key配置,授权主账号的AccessKey至Dataphin。
点击修改,填入Access Key的相关信息,并点击校验。出现“校验成功”即表示配置成功。
接着点击“进入Dataphin”,正式进入产品管理控制台,点击“同意并开始使用”。
到这Dataphin服务的免费试用已开通。
准备MaxCompute环境
由于本次测评还需用到云原生大数据计算服务MaxCompute产品,因此在开通Dataphin服务前,有必要先开通MaxCompute,新用户可以前往免费试用中心领取产品的试用额度,链接阿里云免费试用,选择个人认证版的即可。
由于我这里已经是MaxCompute的老用户了,所以接下来的开通流程跟上述免费试用无关联。需要重点注意的一点是,需要保持MaxCompute和Dataphin在同一个地域,以便进行互联互通。
接下来继续开通大数据计算服务MaxCompute,进入产品控制台,点击立即开通。
产品的可用区要保持和Dataphin所在地域一致。
提交后,进入下一步
继续下一步
在支付页面点击立即支付即可。
出现下图就表明开通成功。
下载测试数据文件
将样例数据.csv下载至本地,以便后面步骤引用。
规划数仓
在Dataphin首页,单击顶部菜单栏的规划,依次单击数据架构-新建数据板块,进入新建数据板块对话框。
在生产开发类型步骤中选择Basic模式并单击下一步。
填入英文名“dataphin_trail_tutorial”,其他参考部署文档填入,业务信息这里均勾选主账号(就是你自己的服务账号)即可。
单击下一步,配置逻辑表命名规范。新建逻辑表时,系统基于逻辑表命名规范自动预生成推荐的逻辑表名称,您可以编辑为其他任意名称,这里我直接使用了默认设置。点击“确定”即可。
再次回到Dataphin首页,单击顶部菜单栏的规划,依次单击计算源-新增计算源-选择MaxCompute计算源,进入新建计算源页面。
在新建MaxCompute计算源前有必要先自行创建一个MaxCompute项目,进入MaxCompute管理控制台,点击项目管理——新建项目,如下:
在弹窗中填入项目名称、选择默认Quota,其他参数保持默认,点击确定。
再次回到Dataphin的新建计算源页面,根据页面提示,填入AccessKey和MaxCompute有关信息,并点击“校验并提交”
当出现如下信息则表示计算源创建成功
紧接着需要创建一个Dataphin的项目,单击项目管理-新建通用项目,进入新建项目对话框。
在生产开发类型步骤中选择Basic模式后,单击下一步。
在项目定义步骤中,归属板块选择前面创建的数据板块、基本信息填入部署文档中定义的、计算源类型选择离线引擎-MaxCompute、MAXC选择在MaxCompute创建的dataphin_trail_tutorial计算源,如下:
空间类型选择通用层,一般用于通用任务或同时做多种类型的任务开发。
完成上述配置后,点击“确定”,就可以看到项目已经完成创建,如下:
数据集成
在部署文档中,这块内容也称为“引入数据”,就是将创建好的数据源集成至项目中来。在Dataphin首页,单击顶部菜单栏的研发——数据集成,如下:
单击离线管道,进入创建管道开发脚本对话框,如下:
在创建离线管道对话框中,输入管道名称、选择调度类型为手动节点、选择目录为离线管道,完成后单击确定,如下:
在离线管道开发页面,单击画布编辑区左上角的“点击以添加组件节点”,将组件库中的本地文件输入组件拖至管道画布中,如下:
再单击输出-将MaxCompute输出组件拖至管道画布中,并单击连接图标,将本地文件输入组件和MaxCompute输出组件进行连接,如下:
分别点击画布中拖入组件的配置图标,进行相关配置,先配置本地文件,点击“选择文件”上传上述操作中下载好的样例文件,行分隔符为英文输入法状态下的逗号,其他保持默认,如下:
将crt_ord_id、delivery_address_id、buyer_id、total_items_amount、discount_amount、delivery_amount、total_amount、status的数据类型由String改为Double,如下:
接着继续配置MaxCompute,数据源选择当前项目,表这里直接点击“一键建表”并粘贴建表SQL,映射关系选择“同名映射”,点击确定,如下:
当出现如下提示,则建表成功,加载策略选择覆盖数据,如下:
保存并运行脚本,将数据同步至Dataphin中,如下:
由于这里本地文件的方式无法实现csv数据的上传,因此这里采用了MySQL的方式来实现,如下:
运行期间会报一个无MaxCompute的权限的问题,需点击申请权限按钮申请该表的读取权限。如下:
完成授权后再次保存并运行,可以看到已经完成数据的传输了,如下:
数据处理
完成了上述的数据接入后,接下来需要对数据进行处理,进入Dataphin首页,单击顶部菜单栏的数据研发,如下:
单击表管理-单击创建图标,进入新建物理表对话框,如下:
在新建物理表对话框中,填入表的名称,点击“下一步”,如下:
在字段列表页面,单击右上角的从建表语句引入,如下:
输入下方代码,单击解析SQL,勾选buyer_id、discount_rate字段后,单击添加,而后单击下一步,如下:
create table buyer_discount_rate
(
buyer_id string comment '顾客ID',
discount_rate string comment '折扣率'
) comment '过去一年每位顾客的平均折扣率'
在存储配置页面,选择存储类型为“内部表”,生命周期填3600,单击提交,如下:
在提交对话框中,单击确定并提交,完成buyer_discount_rate的创建。
接着,在左侧导航栏选择计算任务-单击创建图标-单击MAX_COMPUTE_SQL,进入新建MAX_COMPUTE_SQL任务对话框。
在新建任务对话框中,填入任务名称、调度类型选择周期任务、目录为代码管理,单击确定。
在代码编辑器页面,输入下方代码并单击保存。
INSERT OVERWRITE TABLE buyer_discount_rate
--计算过去一年每位顾客的平均折扣
select format_number(buyer_id,'#') as buyer_id
,concat(cast(format_number(discount_amount / total_amount*100,'#.##') as string),'%') as discount_rate
from (
select buyer_id
,sum(discount_amount) as discount_amount
,sum(total_amount) as total_amount
from order
where replace(substr(end_time , 1 , 10) , '/' , '') >= '${bizdate-365}' --时间范围为过去一年
and status <> -1 --订单状态去除'已取消'
group by buyer_id
) a
保存后,单击预编译,在参数填写对话框中,运行值输入${yyyymmdd-365},单击确定,如下:
在代码编辑器页面,单击右侧菜单栏的属性,在运行参数,输入参数中将bizdate-365的参数值设置为${yyyymmdd-365},其他默认
在调度依赖,上游依赖中单击添加根节点按钮,将任务挂载到根节点,如下:
运行并提交计算任务,如下:
运维补数据
再次进入Dataphin首页,单击顶部菜单栏的研发,选择任务运维,如下:
单击周期任务-选择过去一年每位顾客的平均折扣任务-单击操作列下的三个点图标-单击补数据-选择补当前任务进行补数据,如下:
在补数据 - 补当前任务对话框中,按照下图进行参数配置,完成后点击“确定”,如下:
补数据提交后,可以在补数据实例-已提交实例列表查看补数据状态,如下:
当补数据任务完成后,我们就可以开始最后的数据验证了,如下:
验证数据
再次进入开发页面,单击即席查询-单击创建图标-单击MAX_COMPUTE_SQL,进入新建即席查询对话框,如下:
在新建即席查询对话框中,输入查询名称,选择目录为临时代码,点击“确定”,如下:
在代码编写页面,输入如下SQL代码并验证验证过去一年每位顾客的平均折扣补数据任务是否同步成功。
SELECT * FROM buyer_discount_rate;
有了上面的结果后,我们进入Dataphin首页,点击顶部的分析,选择Notebook,如下:
点击“去创建”,新建一个Notebook,如下:
填入名称并点击“确定”,如下:
在数据分析页签,在右上角选择dataphin_trail_tutorial项目,并输入下方代码并运行,如下:
运行完成后,点击分析,选择折线图,X轴选择buyer_id,Y轴选择discount_rate,即可对buyer_discount_rate表进行可视化分析了
到这,一个完整的评测任务就已经全部体验了,是不是感觉意犹未尽?这里只是一个入门体验,想继续深入了解和学习的伙伴,可以进入智能数据建设与治理 Dataphin(Dataphin),官方准备了非常好的学习路径供选择,如下:
体验总结
我是一位能源科技企业的产品经理,我平时工作中经常会与数据打交道,会涉及到数据建设与治理类产品的使用。
首先Dataphin作为全链路数据治理与标准化工具,对于能源企业来说非常有用,因为能源企业作为传统型企业,在技术更迭上进度会比其他企业慢,普遍面临数据孤岛、标准混乱问题。通过Dataphin的规范建模实现元数据管理、数据质量规则库可高效实现数据治理闭环,可大大降低问题数据产生率。
其次,Dataphin的多源数据融合与隐私计算技术可帮助能源企业更好地实现跨域数据融合,比如与政务、金融机构间的数据融合。
此外,Dataphin的实时数据处理与智能调度能力可帮助能源企业更好地应对诸如负荷波动、设备异常等实时场景,助力支撑数字化审计与应急管理。
除了上述提到的优势和能力外,在实际部署体验中还发现如下问题,期待修复并完善。
一、部署文档的内容有点过旧,比如在阐述步骤二的数仓规划中有关创建数据板块时,部署文档并没有写入如何配置逻辑表命名规范的内容,而这块内容在官方产品文档中是有的,说明部署文档内容过于陈旧,没有及时更新。如下分别是部署文档和产品文档对比截图:
二、部署文档内容不够详细,对于新手用户不太友好。比如准备工作中并没有有关AccessKey配置的内容,而这个对于整个体验又是必不可少的。如下:
在新建数据源时发现一个小问题,就是这个“计算源创建成功”的提示会一直存在,并不会自动消失,需要手动叉掉才行。
三、基础功能不完善,存在异常问题,如在进行本地文件上传配置中,当拖入部署文档中准备的csv文件,直接提示上传失败,也就是还未上传就提示失败了,本来以为只是一个提示问题,没想到着实是功能不可用,后来咨询客服得知,疑似一处功能BUG。
这个时候客服建议我使用新数据源,比如Mysql。这个对于新手用户来说,无疑又增加了体验难度。
四、期待引入SQL智能纠错、自然语言生成报告(如DataAgent智能体);增强与Quick BI无缝对接能力,集成钉钉/企业微信通知功能。智能体在能源领域的价值不仅在于技术替代,更在于重构数据价值链——从被动响应转为主动预测,从局部优化升级为全局协同。此外,智能体的多模态数据解析能力(如NLP处理工单日志、IoT传感器数据自动对齐)可消除数据格式差异,提升治理效率;还可以通过流式计算引擎(如Flink、Kafka)与AI预测模型,实时分析IoT设备数据,大大缩短故障响应时间。