Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。

产品简介

image.png

Dataphin是集产品、技术、方法论于一体的智能数据建设与治理平台,致力于帮助企业构建标准化、资产化、服务化的数据中台体系。其基于阿里巴巴内部多年数据治理实践经验(OneData方法论)的云化输出,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力,致力于解决企业数据口径混乱、质量参差、协作低效等痛点,构建标准统一、安全可靠的数据资产体系。其核心价值在于通过规范建模、自动化代码生成、智能运维等功能,降低数据开发门槛,提升数据治理效率。

这是官网产品的链接,想了解有关产品的更多特性和案例可点击前往进行学习。智能数据建设与治理 Dataphin(Dataphin)

评测任务

考虑到数据中台产品对于多数用户来说不是太熟悉,基此,官方为本次测评专门准备了详细的操作部署文档Dataphin离线数仓搭建-试用教程,通过云起实验室的方式进行了呈现,还是非常不错的。此外,在产品官网文档中也是有本次评测任务相关的章节内容的,感兴趣的朋友可以点击前往进行学习,比起云起实验室的部署文档,官方文档的内容更加偏向理论和实践的结合,非常适合想弄懂原理的小伙伴。链接为离线数仓构建流程_智能数据建设与治理 Dataphin(Dataphin)。接下来我将按照云起实验室的部署文档逐个步骤进行体验。

如果新手用户对于部署文档不是很熟悉,也可以参考官方设计的新手引导进行本次任务体验,进入Dataphin管理控制台后,在右下角点击客服图标可唤醒如下功能:

image.png

选择“新手引导”,按照步骤依次进行,如下:

image.png

准备工作

体验正式开始前,需要先完成相关云资源和数据源的准备,如Dataphin开通与AccessKey配置、MaxCompute计算源的开通与配置、以及测试数据文件的下载。

开通智能数据建设与治理Dataphin

开通服务的方式有多种,比如直接进入产品官网,找到“免费试用”

image.png

点击“立即试用”即可

image.png

第二种方式就是直接使用部署文档给出的试用链接阿里云免费试用,在左侧导航栏找到大数据计算并勾选其下的数据开发和服务,如下:

image.png

在试用产品信息确认页面,选择产品所属地域,其他参数项保持默认即可,如下:

image.png

这里除了地域需要选择之外,其余的参数一定不要随便动,比如行级权限元数据采集元数据管理等增值模块,这些均需要额外收费。测评任务并没涉及到这些功能的使用,因此这里无需额外选择。

image.png

点击“立即试用”按钮后,首次会出现Dataphin部署模式选择页面,如下:

image.png

这里我们可以忽略,直接页面刷新即可,如下:

image.png

点击Access Key配置,授权主账号的AccessKey至Dataphin。

image.png

点击修改,填入Access Key的相关信息,并点击校验。出现“校验成功”即表示配置成功。

image.png

接着点击“进入Dataphin”,正式进入产品管理控制台,点击“同意并开始使用”。

image.png

到这Dataphin服务的免费试用已开通。

准备MaxCompute环境

由于本次测评还需用到云原生大数据计算服务MaxCompute产品,因此在开通Dataphin服务前,有必要先开通MaxCompute,新用户可以前往免费试用中心领取产品的试用额度,链接阿里云免费试用,选择个人认证版的即可。

image.png

由于我这里已经是MaxCompute的老用户了,所以接下来的开通流程跟上述免费试用无关联。需要重点注意的一点是,需要保持MaxCompute和Dataphin在同一个地域,以便进行互联互通。

接下来继续开通大数据计算服务MaxCompute,进入产品控制台,点击立即开通。

image.png

产品的可用区要保持和Dataphin所在地域一致。

image.png

提交后,进入下一步

image.png

继续下一步

image.png

在支付页面点击立即支付即可。

image.png

出现下图就表明开通成功。

image.png

下载测试数据文件

样例数据.csv下载至本地,以便后面步骤引用。

规划数仓

在Dataphin首页,单击顶部菜单栏的规划,依次单击数据架构-新建数据板块,进入新建数据板块对话框。

image.png

image.png

生产开发类型步骤中选择Basic模式并单击下一步

image.png

填入英文名“dataphin_trail_tutorial”,其他参考部署文档填入,业务信息这里均勾选主账号(就是你自己的服务账号)即可。

image.png

单击下一步,配置逻辑表命名规范。新建逻辑表时,系统基于逻辑表命名规范自动预生成推荐的逻辑表名称,您可以编辑为其他任意名称,这里我直接使用了默认设置。点击“确定”即可。

image.png

再次回到Dataphin首页,单击顶部菜单栏的规划,依次单击计算源-新增计算源-选择MaxCompute计算源,进入新建计算源页面。

image.png

image.png

在新建MaxCompute计算源前有必要先自行创建一个MaxCompute项目,进入MaxCompute管理控制台,点击项目管理——新建项目,如下:

image.png

在弹窗中填入项目名称、选择默认Quota,其他参数保持默认,点击确定。

image.png

再次回到Dataphin的新建计算源页面,根据页面提示,填入AccessKey和MaxCompute有关信息,并点击“校验并提交”

image.png

当出现如下信息则表示计算源创建成功

image.png

紧接着需要创建一个Dataphin的项目,单击项目管理-新建通用项目,进入新建项目对话框。

image.png

在生产开发类型步骤中选择Basic模式后,单击下一步

image.png

项目定义步骤中,归属板块选择前面创建的数据板块、基本信息填入部署文档中定义的、计算源类型选择离线引擎-MaxCompute、MAXC选择在MaxCompute创建的dataphin_trail_tutorial计算源,如下:

image.png

空间类型选择通用层,一般用于通用任务或同时做多种类型的任务开发。

image.png

完成上述配置后,点击“确定”,就可以看到项目已经完成创建,如下:

image.png

数据集成

在部署文档中,这块内容也称为“引入数据”,就是将创建好的数据源集成至项目中来。在Dataphin首页,单击顶部菜单栏的研发——数据集成,如下:

image.png

单击离线管道,进入创建管道开发脚本对话框,如下:

image.png

创建离线管道对话框中,输入管道名称、选择调度类型为手动节点、选择目录为离线管道,完成后单击确定,如下:

image.png

在离线管道开发页面,单击画布编辑区左上角的“点击以添加组件节点”,将组件库中的本地文件输入组件拖至管道画布中,如下:

image.png

再单击输出-将MaxCompute输出组件拖至管道画布中,并单击连接图标,将本地文件输入组件和MaxCompute输出组件进行连接,如下:

image.png

image.png

分别点击画布中拖入组件的配置图标,进行相关配置,先配置本地文件,点击“选择文件”上传上述操作中下载好的样例文件,行分隔符为英文输入法状态下的逗号,其他保持默认,如下:

image.png

将crt_ord_id、delivery_address_id、buyer_id、total_items_amount、discount_amount、delivery_amount、total_amount、status的数据类型由String改为Double,如下:

image.png

接着继续配置MaxCompute,数据源选择当前项目,表这里直接点击“一键建表”并粘贴建表SQL,映射关系选择“同名映射”,点击确定,如下:

image.png

当出现如下提示,则建表成功,加载策略选择覆盖数据,如下:

image.png

保存并运行脚本,将数据同步至Dataphin中,如下:

image.png

由于这里本地文件的方式无法实现csv数据的上传,因此这里采用了MySQL的方式来实现,如下:

image.png

运行期间会报一个无MaxCompute的权限的问题,需点击申请权限按钮申请该表的读取权限。如下:

image.png

完成授权后再次保存并运行,可以看到已经完成数据的传输了,如下:

image.png

数据处理

完成了上述的数据接入后,接下来需要对数据进行处理,进入Dataphin首页,单击顶部菜单栏的数据研发,如下:

image.png

单击表管理-单击创建图标,进入新建物理表对话框,如下:

image.png

新建物理表对话框中,填入表的名称,点击“下一步”,如下:

image.png

字段列表页面,单击右上角的从建表语句引入,如下:

image.png

输入下方代码,单击解析SQL,勾选buyer_id、discount_rate字段后,单击添加,而后单击下一步,如下:

create table buyer_discount_rate
( 
buyer_id string comment '顾客ID',
discount_rate string  comment '折扣率'
) comment '过去一年每位顾客的平均折扣率'

image.png

在存储配置页面,选择存储类型为“内部表”,生命周期填3600,单击提交,如下:

image.png

提交对话框中,单击确定并提交,完成buyer_discount_rate的创建。

image.png

接着,在左侧导航栏选择计算任务-单击创建图标-单击MAX_COMPUTE_SQL,进入新建MAX_COMPUTE_SQL任务对话框。

image.png

新建任务对话框中,填入任务名称、调度类型选择周期任务、目录为代码管理,单击确定

image.png

代码编辑器页面,输入下方代码并单击保存

INSERT OVERWRITE  TABLE  buyer_discount_rate
--计算过去一年每位顾客的平均折扣
select  format_number(buyer_id,'#') as buyer_id
       ,concat(cast(format_number(discount_amount / total_amount*100,'#.##') as string),'%')  as discount_rate
from    (
            select  buyer_id
                   ,sum(discount_amount) as discount_amount
                   ,sum(total_amount)    as total_amount
            from   order
            where   replace(substr(end_time , 1 , 10) , '/' , '') >= '${bizdate-365}'  --时间范围为过去一年
            and     status <> -1  --订单状态去除'已取消'
            group by buyer_id
        ) a

image.png

保存后,单击预编译,在参数填写对话框中,运行值输入${yyyymmdd-365},单击确定,如下:

image.png

代码编辑器页面,单击右侧菜单栏的属性,在运行参数,输入参数中将bizdate-365的参数值设置为${yyyymmdd-365},其他默认

image.png

在调度依赖,上游依赖中单击添加根节点按钮,将任务挂载到根节点,如下:

image.png

运行并提交计算任务,如下:

image.png

运维补数据

再次进入Dataphin首页,单击顶部菜单栏的研发,选择任务运维,如下:

image.png

单击周期任务-选择过去一年每位顾客的平均折扣任务-单击操作列下的三个点图标-单击补数据-选择补当前任务进行补数据,如下:

image.png

补数据 - 补当前任务对话框中,按照下图进行参数配置,完成后点击“确定”,如下:

image.png

补数据提交后,可以在补数据实例-已提交实例列表查看补数据状态,如下:

image.png

当补数据任务完成后,我们就可以开始最后的数据验证了,如下:

image.png

验证数据

再次进入开发页面,单击即席查询-单击创建图标-单击MAX_COMPUTE_SQL,进入新建即席查询对话框,如下:

image.png

新建即席查询对话框中,输入查询名称,选择目录为临时代码,点击“确定”,如下:

image.png

代码编写页面,输入如下SQL代码并验证验证过去一年每位顾客的平均折扣补数据任务是否同步成功。

SELECT * FROM buyer_discount_rate;

image.png

有了上面的结果后,我们进入Dataphin首页,点击顶部的分析,选择Notebook,如下:

image.png

点击“去创建”,新建一个Notebook,如下:

image.png

填入名称并点击“确定”,如下:

image.png

数据分析页签,在右上角选择dataphin_trail_tutorial项目,并输入下方代码并运行,如下:

image.png

运行完成后,点击分析,选择折线图,X轴选择buyer_id,Y轴选择discount_rate,即可对buyer_discount_rate表进行可视化分析了

image.png

到这,一个完整的评测任务就已经全部体验了,是不是感觉意犹未尽?这里只是一个入门体验,想继续深入了解和学习的伙伴,可以进入智能数据建设与治理 Dataphin(Dataphin),官方准备了非常好的学习路径供选择,如下:

image.png

体验总结

我是一位能源科技企业的产品经理,我平时工作中经常会与数据打交道,会涉及到数据建设与治理类产品的使用。

首先Dataphin作为全链路数据治理与标准化工具,对于能源企业来说非常有用,因为能源企业作为传统型企业,在技术更迭上进度会比其他企业慢,普遍面临数据孤岛、标准混乱问题。通过Dataphin的规范建模实现元数据管理、数据质量规则库可高效实现数据治理闭环,可大大降低问题数据产生率。

其次,Dataphin的多源数据融合与隐私计算技术可帮助能源企业更好地实现跨域数据融合,比如与政务、金融机构间的数据融合。

此外,Dataphin的实时数据处理与智能调度能力可帮助能源企业更好地应对诸如负荷波动、设备异常等实时场景,助力支撑数字化审计与应急管理。

除了上述提到的优势和能力外,在实际部署体验中还发现如下问题,期待修复并完善。

一、部署文档的内容有点过旧,比如在阐述步骤二的数仓规划中有关创建数据板块时,部署文档并没有写入如何配置逻辑表命名规范的内容,而这块内容在官方产品文档中是有的,说明部署文档内容过于陈旧,没有及时更新。如下分别是部署文档和产品文档对比截图:

image.png

image.png

二、部署文档内容不够详细,对于新手用户不太友好。比如准备工作中并没有有关AccessKey配置的内容,而这个对于整个体验又是必不可少的。如下:

image.png

在新建数据源时发现一个小问题,就是这个“计算源创建成功”的提示会一直存在,并不会自动消失,需要手动叉掉才行。

image.png

三、基础功能不完善,存在异常问题,如在进行本地文件上传配置中,当拖入部署文档中准备的csv文件,直接提示上传失败,也就是还未上传就提示失败了,本来以为只是一个提示问题,没想到着实是功能不可用,后来咨询客服得知,疑似一处功能BUG。

image.png

image.png

这个时候客服建议我使用新数据源,比如Mysql。这个对于新手用户来说,无疑又增加了体验难度。

四、期待引入SQL智能纠错、自然语言生成报告(如DataAgent智能体);增强与Quick BI无缝对接能力,集成钉钉/企业微信通知功能。智能体在能源领域的价值不仅在于技术替代,更在于重构数据价值链——从被动响应转为主动预测,从局部优化升级为全局协同。此外,智能体的多模态数据解析能力(如NLP处理工单日志、IoT传感器数据自动对齐)可消除数据格式差异,提升治理效率;还可以通过流式计算引擎(如Flink、Kafka)与AI预测模型,实时分析IoT设备数据,大大缩短故障响应时间。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
2月前
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。
|
1月前
|
存储 人工智能 自然语言处理
LangChain RAG入门教程:构建基于私有文档的智能问答助手
本文介绍如何利用检索增强生成(RAG)技术与LangChain框架构建基于特定文档集合的AI问答系统。通过结合检索系统和生成机制,RAG能有效降低传统语言模型的知识局限与幻觉问题,提升回答准确性。文章详细展示了从环境配置、知识库构建到系统集成的全流程,并提供优化策略以改进检索与响应质量。此技术适用于专业领域信息检索与生成,为定制化AI应用奠定了基础。
206 5
LangChain RAG入门教程:构建基于私有文档的智能问答助手
|
1月前
|
SQL 调度
如何基于Dataphin智能研发开发“留存率”指标
用户留存率是指在互联网行业中,某段时间内新增用户中,在后续特定时间点或时间段内继续使用应用的用户比例。它是衡量应用质量和用户保留能力的重要指标。 本文为您介绍如何基于Dataphin规范建模结合SQL加工能力进行留存率指标开发。
100 11
|
2月前
|
SQL 数据采集 分布式计算
深度探索 Dataphin 数据中台的功能与表现
深度探索 Dataphin 数据中台的功能与表现
131 7
|
18天前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
|
18天前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
|
18天前
|
SQL 数据采集
Dataphin功能Tips系列(56)如何实现质量规则的批量修改
本文介绍了在Dataphin中针对Dataphin表和全域数据表的自定义SQL规则的批量修改的方法。
|
18天前
|
弹性计算 调度
Dataphin功能Tips系列(52)-调度资源组弹性伸缩
Dataphin支持通过自定义资源组实现弹性资源调配:设置资源上下限,允许资源组间相互“借用”空闲资源。当开发环境任务暂停时,其未使用的资源可被生产环境借用,确保资源高效利用,同时保障各环境资源需求。配置时只需明确开发与生产环境的资源上下限,并关联对应项目任务即可实现动态调整。
|
18天前
|
供应链
Dataphin功能Tips系列(55)如何通过规则排序实现不同的自动上架效果
本文介绍了如何在Dataphin中配置自动上架规则以高效管理数据。