智能数据建设与治理 Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin提供多种计算平台支持及可拓展的开放能力,以适应各行业企业的平台技术架构和特定诉求。
实操操作
本文是通过Dataphin离线数仓搭建的【使用教程】来初体验产品功能,产品手册。
领取免费试用,选择大数据计算-智能数据建设与治理Dataphin,立即试用(试用时长1个月),记得将样例数据.csv下载至本地。
创建数据板块
登录Dataphin控制台,进入Dataphin首页
数据架构-新建数据板块
选择经典模式
按照实验给定的参数填入下列信息
第二部的逻辑表命名规范,教程没写,就全部默认确定
选择计算源-新增计算源
按照要求配置基本信息参数,记得点击测试连接
校验失败,看看报错,没有项目权限
尝试过各种RAM权限,用户授权等,通过和客服的帮助,确定需要在maxcompute创建全网名称一致的项目(先创建,而且名称不能一致)
登录到maxcompute控制台,创建项目
再按照上面的步骤创建计算源,创建成功
按照指导创建项目
数据集成-离线集成-创建离线管道-参数按照指导手册就行
组件库拖拽输入-输出获得下图
点击输入的齿轮体表,上传已经准备好的样例数据
点击maxcopmute的齿轮,按照指导配置参数
一键生成的sql如下:
create table `order` ( `crt_ord_id` double comment 'order_id', `delivery_address_id` double comment '收货地址', `buyer_id` double comment '买家ID', `gmt_create` string comment '创建时间', `gmt_modified` string comment '修改时间', `order_time` string comment '下单时间', `pay_time` string comment '支付时间', `ship_time` string comment '发货时间', `end_time` string comment '交易完成/交易取消 时间', `total_items_amount` double comment '总商品金额,单价*件数', `discount_amount` double comment '总折扣金额,单位分', `delivery_amount` double comment '运费单位分', `total_amount` double comment '实付总金额单位分', `status` double comment '状态:-1已取消1新建2已支付3已发货4确认发货' ) comment 'order' lifecycle 3600
依次点击保存、运行、提交
检查通过,确认提交
手动运行集成任务,运维-手动任务-运行-确定
手动实例,运行成功
开发-表管理-新建物理表
添加物理表详情页面,单击右上角的从建表语句引入,输入下方代码,单击解析SQL,勾选buyer_id、discount_rate字段后,单击添加,最后单击提交,在提交对话框中,单击确定并提交,完成buyer_discount_rate的创建。
SQL语句
create table buyer_discount_rate ( buyer_id string comment '顾客ID', discount_rate string comment '折扣率' ) comment '过去一年每位顾客的平均折扣率'
新建maxcompute计算任务,参数按手册填写
代码编辑器输入代码,保存,预编译-参数${yyyymmdd-365},运行-提交
设置输入参数${yyyymmdd-365}
单击自动解析,将添加的上游依赖生效关闭。然后再单击添加根节点按钮,将任务挂载到根节点。
检查通过,确认并提交
成功
周期补充任务
如图所示参数
运行成功
验证数据
SELECT * FROM buyer_discount_rate;
同上所属一样的,保存-预编译-运行
新建数据分析
完成实验
总结
不知道是哪个步骤出了问题,最后的结果没做出来。
- 示例教程有点老,没更新。跟实际测试不太一样,第一次接触有点费劲,研发-开发,等等名称不一样,找路径有点费劲。
- 这个东西还是太深,一次实验每太理解产品的逻辑,还得加深研究。
对这段每太理解,这没有示例,不知道挂载到根节点是个什么意思。