Dataphin数据研发

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 学员将在Dataphin(数据治理产品)集成MySQL数据库进行数据上云,然后利用Dataphin针对上云表进行规范建模。并通过规范建模生成的逻辑表针对需求进行指标/标签开发。

Dataphin数据研发

1.  创建资源

开始实验之前,您需要先创建实验相关资源。

在实验室页面,单击创建资源。

(可选)在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如IP地址、子用户信息等)。

说明:资源创建过程需要3~5分钟(视资源不同开通时间有所差异,ACK等资源开通时间较长)。完成实验资源的创建后,您可以在云产品资源列表查看已创建的资源信息,例如:子用户名称、子用户密码、AK ID、AK Secret、资源中的项目名称等。

实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建。

资源创建成功,可在左侧的资源卡片中查看相关资源信息以及RAM子账号信息

2.  前置操作(务必完成):手动清空未回收的遗留文件

(1)拿到dataphin账号以及打开dataphin

单击右边的WebTerminal,打开命令行。

输入ls,按下回车可以看到存在userinfo.txt。

输入cat userinfo.txt 可以拿到用户名和密码(记得保存下来)。

配置host:"121.40.84.217 dataphin-asset.gts.work".配置方法"https://jingyan.baidu.com/article/154b46316570c428ca8f4133.html"。

切换到自己的电脑,新开一个浏览器。

输入http://dataphin-asset.gts.work/链接。

输入刚才拿到的账号以及密码,进入dataphin。

(2)检查管道任务查看是否有遗留任务

点击研发进入到研发模块。

看一下自己是不是在开发项目空间,若看到项目空间为data_distill则需要切换。

然后点击集成进入到集成模块。

若看到离线管道内无任何任务,则跳过2.检查管道任务查看是否有遗留任务此步骤。

删除管道任务。

点击任务右边的选项。

点击下线并删除或删除,前两者有哪个点哪个,若任务发布则会弹第一个,若任务为草稿状态则会弹后者。

点击发布,进入到发布板块 。

点击发布并且点提交发布刚才的删除管道任务。

重复上述步骤 删除所有遗留管道任务。

(3)检查计算任务查看是否有遗留任务

点击开发进入到开发模块,并且点击计算任务。

若看到计算任务内无任何任务,则跳过3.检查计算任务查看是否有遗留任务。

删除计算任务。

点击任务右边的选项。

点击下线并删除或者删除,前两者有哪个点哪个,若任务发布则会弹第一个,若任务为草稿状态则会弹后者。

点击发布,进入到发布板块选择 数据处理(若是点击删除没有进行下线则不需要发布)。

点击发布并且点击提交发布刚才的删除计算任务。

重复上述步骤 删除所有遗留计算任务。

(4)检查即席查询查看是否有即席查询

点击开发进入到开发模块,并且点击即席查询。

若看到即席查询内无任何任务,则跳过过4.检查即席查询查看是否有即席查询。

删除计算任务。

点击任务右边的选项。

点击删除。

重复上述步骤 删除所有遗留计算任务。

(5)检查派生指标查看是否有派生指标

点击开发进入到开发模块,并且点击派生指标。

若看到派生指标内无任何任务,则跳过5.检查派生指标查看是否有派生指标。

删除派生指标

点击任务右边的选项。

点击下线并删除或者删除,前两者有哪个点哪个,若任务发布则会弹第一个,若任务为草稿状态则会弹后者。

点击发布,进入到发布板块选择规范建模 (若是点击删除没有进行下线则不需要发布)。

点击发布并且点击提交发布刚才的删除派生指标。

重复上述步骤 删除所有遗留派生指标。

##注意:派生指标,汇总逻辑表,原子指标,业务限定的删除顺序务必按照实验顺序进行。

(6)检查汇总逻辑表查看是否有汇总逻辑表

点击开发进入到开发模块,并且点击汇总逻辑表。

若看到汇总逻辑表内无任何任务,则跳过6.检查汇总逻辑表查看是否有汇总逻辑表。

删除派生指标

点击任务右边的选项。

点击下线并删除或者删除,前两者有哪个点哪个,若任务发布则会弹第一个,若任务为草稿状态则会弹后者。

点击发布,进入到发布板块选择规范建模 (若是点击删除没有进行下线则不需要发布)。

点击发布并且点击提交发布刚才的删除汇总逻辑表。

重复上述步骤 删除所有遗留汇总逻辑表。

(7)检查原子指标查看是否有原子指标

点击开发进入到开发模块,并且点击原子指标。

若看到原子指标内无任何任务,则跳过7.检查原子指标查看是否有原子指标。

删除原子指标

点击任务右边的选项。

点击下线并删除或者删除,前两者有哪个点哪个,若任务发布则会弹第一个,若任务为草稿状态则会弹后者。

点击发布,进入到发布板块选择规范建模 (若是点击删除没有进行下线则不需要发布)。

点击发布并且点击提交发布刚才的删除原子指标。

重复上述步骤 删除所有遗留原子指标。

(8)检查业务限定查看是否有业务限定

点击开发进入到开发模块,并且点击业务限定。

若看到业务限定内无任何任务,则跳过8.检查业务限定查看是否有业务限定。

删除原子指标

点击任务右边的选项。

点击下线并删除或者删除,前两者有哪个点哪个,若任务发布则会弹第一个,若任务为草稿状态则会弹后者。

点击发布,进入到发布板块选择规范建模 (若是点击删除没有进行下线则不需要发布)。

点击发布并且点击提交发布刚才的删除业务限定。

重复上述步骤 删除所有遗留业务限定。

(9)检查维度逻辑表查看是否有维度逻辑表

点击开发进入到开发模块,并且点击维度逻辑表。

若看到维度逻辑表内无任何任务,则跳过(9)检查维度逻辑表查看是否有维度逻辑表。

删除维度逻辑表

点击任务右边的选项。

点击下线并删除或者删除,前两者有哪个点哪个,若任务发布则会弹第一个,若任务为草稿状态则会弹后者。

点击发布,进入到发布板块选择规范建模 (若是点击删除没有进行下线则不需要发布)。

点击发布并且点击提交发布刚才的删除维度逻辑表。

重复上述步骤 删除所有遗留维度逻辑表。

3.  Dataphin配置Mysql数据源

1.打开dataphin,单击规划。

2.单击数据源并且单击新增数据源。

3.选择mysql数据源。

4.配置数据源信息。

数据源信息,JDBC URL链接实验资源信息里可以获取。

选择好数据库类型后,JDBC URL填写的文本框会提示对应数据源链接语法格式,mysql的语法格式为:jdbc:mysql://ServerIP:Port/Database(serverIP为弹性的IP地址,Port为18086,Database为sakila)。

数据库db名、数据库登录名、数据库密码。

数据库db名:Sakila。

数据库登录名:root。

数据库密码:admin!23。

5.填写无误后 点击确定 即可完成添加数据源。

4.  数据上云

(1)进入到数据集成模块

(2)新建集成任务

(3)本实验中共需要上云16张表,且为了规范建议名称统一为 "imp_sakila_xxx(xxx为需要上云表名称)".

---------------------------------------这是所有表的相关信息----------------------------------------

actor,演员信息表。通过 film_actor 表和 film 表进行关联。

film,电影信息表。film 引用了 language 表,同时被 film_category、film_actor 以及 inventory 表引用。

film_actor,电影演员表。film 表和 actor 表之间的多对多关系。

film_category,电影分类表。film 表和 category 表之间的多对多关系。

category,分类表。通过 film_category 表和 film 表进行关联。

inventory,电影库存表。每部电影在不同商店里的库存,被 rental 表引用。

film_text,电影描述表。包含了 film 表中的 film_id、title 以及 description 三个字段,通过 film 表上的触发器进行数据同步。

language,语言信息表。language 表被 film 表引用。

address,地址信息表。其中主键字段 address_id 是 customer、staff 以及 store 表上的外键引用字段,同时引用了 city 表。

city,城市信息表。引用了 country 表,同时被 address 表引用。

country,国家信息表。country 表被 city 表引用。

customer,客户信息表。引用了 address 和 store 表,同时被 payment 和 rental 表引用。

payment,付款信息表。引用了 customer、staff 以及 rental 表。

rental,租赁信息表,每个 DVD 每次被租赁的信息。引用了 inventory、customer 以及 staff 表,同时被 payment 表引用。

staff,员工信息表。引用了 store 和 address 表,同时被 rental、payment 以及 store 表引用。

store,商店信息表,引用了 staff 和 address 表,同时被 staff、customer 以及 inventory 表引用。

---------------------------------------------------------------------------------------------------------

首先进行上云address这张表。

根据规范完成管道名称。

选择手动节点。

点击确认生成对应集成任务。

(4)配置管道集成任务

点击生成组件件。

点击选择输入组件并且选择mysql 进行拖拽出来。

点击选择输出组件并且选择Maxcompute 进行拖拽出来。

将mysql输入组件和maxcompute输出组件进行连接起来。

(5)配置mysql输入组件

右键mysql输入组件点击属性配置。

数据源选择gts_datasource_mysql。

上云表选择address对应继承任务名称,本次实验共需要上云16张表(上面有相关16张表信息)。

点击确认完成mysql配置。

(6)配置maxcompute输出组件

右键maxcompute输入组件点击属性配置。

数据源选择目前所在项目中。

加载策略选择覆盖数据。

先一键生成目标表,注意规范此处建表记得加上前缀 sakila_xxx 然后点击新建。

分区填写 ds = ${bizdate}。

选择同名映射。 **注意:如果mysql有关键词字样,在dataphin中新建会加上后缀区别,在这里选择同名映射 location 无法映射到刚才在dataphin新建的表,因为字段名称替换为 location_odps  若出现无法完全映射上的字段 可以选择同行映射

都配置无误后点击确认完成maxcompute的配置。

(7)保存任务并且进行提交发布

点击`保存`后进行`提交`。

点击`确认并提交`。

进入到发布界面。

选择刚才的任务进行点击`发布`。

点击确认即发布成功。

(8)手动执行集成脚本

点击`运维`进入到运维界面。

选择`手动任务`并且运行刚才发布的管道任务。

点击`确认`。

可以点击`手动实例`观察任务是否执行成功。

(9)验证数据

点击`开发`进入到开发界面。

点击`即席任务`新建文件。

填写即席任务名称并且点击`确认`生成。

填写 SELECT * FROM ent_dmo.sakila_address where ds > 0 ;SQL语句并且执行。

#注:ent_dmo为项目名称,填写自己的项目名称 `gts_gtb_xxx`  

**注意:在dataphin中进行即席任务表名要加上项目前缀  也就是刚才配置的项目名称 同时因为建的是分区表 在手动补数据的时候会默认补充业务日期为前一天 但因为在这里我不知道各位是哪天执行  所以写的ds>0 为全区扫描.实际项目中不建议如此执行应填写参数选择固定日期

10.重复7.2数据上云模块的 2-8步骤,进行完成剩下15张表的上云工作

**注意:

新建管道任务时记得选择`手动节点`。

`输入组件`内选择mysql,`输出组件`内选择maxcompute。

每个任务保存提交后记得发布。

5.  分析需求

3个指标

历史至今2号员工卖出去的销售金额

历史至今影碟租赁的数量

历史至今影碟归还的数量

2个标签

每个客户历史至今租凭影碟的数量

每个客户历史至今归还影碟的数量

上云表相关信息

address,地址信息表。其中主键字段 address_id 是 customer、staff 以及 store 表上的外键引用字段,同时引用了 city 表。

actor,演员信息表。通过 film_actor 表和 film 表进行关联。

film,电影信息表。film 引用了 language 表,同时被 film_category、film_actor 以及 inventory 表引用。

film_actor,电影演员表。film 表和 actor 表之间的多对多关系。

film_category,电影分类表。film 表和 category 表之间的多对多关系。

category,分类表。通过 film_category 表和 film 表进行关联。

inventory,电影库存表。每部电影在不同商店里的库存,被 rental 表引用。

film_text,电影描述表。包含了 film 表中的 film_id、title 以及 description 三个字段,通过 film 表上的触发器进行数据同步。

language,语言信息表。language 表被 film 表引用。

city,城市信息表。引用了 country 表,同时被 address 表引用。

country,国家信息表。country 表被 city 表引用。

customer,客户信息表。引用了 address 和 store 表,同时被 payment 和 rental 表引用。

payment,付款信息表。引用了 customer、staff 以及 rental 表。

rental,租赁信息表,每个 DVD 每次被租赁的信息。引用了 inventory、customer 以及 staff 表,同时被 payment 表引用。

staff,员工信息表。引用了 store 和 address 表,同时被 rental、payment 以及 store 表引用。

store,商店信息表,引用了 staff 和 address 表,同时被 staff、customer 以及 inventory 表引用。

6.  通过规范建模生成对应维度逻辑表

(1)现在要根据表的说明构建各个信息维度表,首先构建主题域

单击维度逻辑表并且单击新建维度逻辑表。

点击`新建维度表`后,选择`地址`业务对象。

中文名称填写:xxx维度表 这里是构建地址维表用的是地址业务对象 即为地址维度表。

点击下一步。

填写主键逻辑

可以先点击参考实例尝试自己编写代码 SELECT address_id FROM ent_dmo.sakila_address WHERE ds ='${bizdate}' ;。#注:ent_dmo为项目名称,填写自己的项目名称 `gts_gtb_xxx`

构建地址维度表自然选择对应的地址信息表主键。

点击规范性校验。

最后点击下一步。

物化信息选择默认填写的即可然后点击确认生成地址维度表 。

(2)通过主键逻辑生成对应地址维度表后只有主键一个字段,此时要冗余别的字段进来

点击 + 号 并且点击新建字段。

滑动滚轮,看到未引入的字段。

点击未引入的字段并且点击新增将引入sakila_address剩余的字段。

填写字段中文名称,因本次实验sakila数据库本身无注释,故这里咱们中英文名称一致。

点击保存并校验即可将sakila_address剩余的字段都冗余进来。

(3)仔细观察上述表结构信息说明,address表被customer、staff 以及 store表引用外键,同时引用了city表

故这里要将dim_address(地址维度表)通过city_id关联city表。

**注意:关联city表,需要构建city维度表并且city维度表进行上线(保存->提交->发布)

(4)构建city维度表

单击新建维度表。

(5)配置维度表信息,并生成对应city维度表

业务对象选择上面生成的城市业务对象。

中文名称填写城市维度表,点击下一步。

完善主键逻辑(和构建address步骤一样)

首先点击规范实例尝试自行填写 SELECT city_id FROM ent_dmo.sakila_city where ds ='${bizdate}'  ;#注:ent_dmo为项目名称,填写自己的项目名称 `gts_gtb_xxx`。

填写主键逻辑后点击规范性校验,校验无误后点击下一步。

完善物化信息,不用调整.点击确认生成dim_city(城市维度表)。

(6)冗余city剩余字段进来

点击+号,点击新建字段。

点击未引入的字段后,点击新增。

完善中文名称后点击保存并校验,成功冗余剩余字段。

(7)配置调度->保存提交->发布

点击属性,并且滑到最先面 点击添加依赖。

添加上游节点依赖,因为本次实验为一次性的,上云的表均是手动任务,故无法关联上游表,此处填写root选择根节点。

添加关联物理表,选择对应物理表后 并点击确定新增。

点击确定即可保存调度。

保存并提交dim_city(城市维度表)。

点击`确认并提交`后耐心等待校验。

点击发布板块。

选择刚才提交的任务并点击发布进行发布任务 。 **注意:在规范建模板块中  截图中已标识

(8)dim_address(地址维度表)关联dim_city(城市维度表)

梳理下进度与流程:

目前dim_address已经生成,但是未进行保存和发布,因为还未关联dim_city。

dim_city已构建完成并且保存发布上线了。

现在该用dim_address通过city_id关联dim_city并进行配置调度保存发布了。

(9)关联dim_city->配置调度并保存提交任务->发布dim_address进行上线

点击列表视图。

选择city_id并点击新建关系。

关联维度选择地址-城市维度表。

点击确认,即可完成关联。

可看到已经关联上了,点击模型视图可更好的观察。

配置调度,点击右边属性,点击添加依赖。

7.点击保存并提交,点击确定并提交。

8.点击发布板块,选择规范建模,将生成的任务进行发布。

(10)重复1-9步骤,进行完成剩下的维度表构建以及关联

总结 :

1.构建维度表的前提是要有对应的业务对象,业务对象已提前帮学员创建好,可根据下面信息创建维度表时选择对应的业务对象

2.构建 A 维度表去关联 B 维度表, B表必须是已上线(成功发布)的表,才可进行关联维度

根据以下信息进行完成剩下维度表的构建以及关联;(在项目中每个项目定义的域都需要客户去审核进行规范,因本次为实验,故划分域划的比较简单随意)

address : 主题域=地址域 , 业务对象 = 地址 关联city : address.city_id = city.city_id

city : 主题域 = 地址域 , 业务对象 = 城市 关联country : city.country_id = country.country_id

country : 主题域 = 地址域 ,业务对象 = 乡县

actor : 主题域 = 公共域 ,业务对象 = 演员

film : 主题域 = 电影域 , 业务对象 = 电影

关联film_actor : film.film_id = film_actor.film_id ;

关联film_category : film.film_id =film_category.film_id

关联film_text : film.film_id = film_text.film_id

关联 language :film.language_id = language.langua_id

film_actor : 主题域 = 电影域 , 业务对象 = 电影演员

film_category : 主题域 = 电影域 , 业务对象 = 电影分类

category : 主题域 = 公共域 , 业务对象 = 分类

inventory : 主题域 =电影域 , 业务对象 = 电影库存

film_text : 主题域 = 电影域 , 业务对象 = 电影描述

language : 主题域 = 公共域 , 业务对象= 语言

customer : 主题域 = 公共域 , 业务对象 = 客户

关联store : customer.store_id = store.store_id

关联address: customer.address_id =address.address_id

payment : 主题域 = 公共域 , 业务对象= 付款信息

关联rental : payment.rental_id = rental.rental_id

关联customer : payment.customer_id = customer.customer_id

关联staff : payment.staff_id =staff.staff_id

rental : 主题域 = 公共域 , 业务对象 = 租赁信息

staff : 主题域 = 公共域 ,业务对象 = 员工信息

关联store : staff.store_id = store.store_id

关联address: staff.address_id =address.address_id

store : 主题域 = 公共域 , 业务对象 = 商店信息

**注意 : 本次关联,不进行关联不影响后续指标开发.但是建议所有实验同学完成相关关联操作.务必构建所有维度表

7.  指标开发

3个指标需求:

历史至今2号员工卖出去的销售金额

历史至今影碟租赁的数量

历史至今影碟归还的数量

(1) 新建原子指标-销售金额

点击原子指标,点击新建原子指标。

配置原子指标

业务实体 : 选择需要计算的指标的业务实体。

规范填写原子指标中/英文名称。

数据类型选择decimal。

填写计算逻辑

主表选择业务实体对应表 payment。

统计周期标识 选择payment_date , 后面选择日期格式。

聚合逻辑为计算逻辑 此处要计算总金额 填写 sum(amount)。

提交并且确定。

点击发布板块。

点击发布即可上线刚才配置的原子指标。

(2)新建业务限定-2号员工

点击业务限定,点击业务限定。

需要限定payment中 staff_id =2

故业务实体选择payment。

英文名称填写为 staff (可随意填写便于识别)。

中文名称填写为 员工 (可随意填写便于识别)。

点击添加计算逻辑

来源主表 : dim_payment。

计算逻辑 : dim_payment.staff_id = 2 。

点击确定。

配置都填写完成后点击确认并提交。

点击发布板块,点击发布任务。

(3) 新建派生指标(自动构成汇总逻辑表) - 历史至今2号员工的销售金额

点击指标,点击新建指标。

配置派生指标

统计周期 : 历史截止当日

原子指标 : 销售金额

业务限定 : 员工

统计粒度 : 全表

汇总表名称 : amount (方便标识 可随意填写)

点击下一步。

选择自己的用户账号,并且点击提交并确定。

发布上线,因为新建完派生指标后会生成对应汇总逻辑表(dws),所以此处有2个任务都需要发布。

(4)新建原子指标 - 影碟租赁的数量

点击原子指标,点击新建原子指标。

配置原子指标

业务实体 : 选择需要计算的指标的业务实体。

规范填写原子指标中/英文名称。

数据类型选择BITINT。

填写计算逻辑

主表选择业务实体对应表 rental。

统计周期标识 选择rental_date , 后面选择日期格式。

聚合逻辑为计算逻辑 此处要计算总金额 填写 count(dim_rental.rental_id)。

提交并且确定。

点击发布板块。

点击发布即可上线刚才配置的原子指标。

(5)第二个指标不需要进行业务限定故不用设置业务限定。

(6)新建派生指标(自动构成汇总逻辑表) - 历史至今影碟租赁的数量

点击指标,点击新建指标。

配置派生指标

统计周期 : 历史截止当日

原子指标 : 租赁影碟

业务限定 : 无

统计粒度 : 全表

汇总表名称 : amount (方便标识 可随意填写)

点击下一步。

选择自己的用户账号,并且点击提交并确定。

发布上线,因为刚才生成的dws粒度和此指标粒度都为全表,故融合在了一张表里。

(7) 根据1-6步骤完成最后一个派生指标的建设

**总结 : 1.首先分析需求。

2.探查建立好的维度表结构,比如租赁数量 肯定是计算租赁维度表的, 那最后一个归还是否直接取归还维度表即可?。

3.构建原子指标。

4.构建业务限定(非必选)。

5.构建派生指标,会自动生成dws汇总逻辑表,除非存在统一粒度的dws汇总逻辑表。

8.  补数据并校验指标

点击运维板块,然后 点击周期任务,然后点击明细及汇总表。

选择dws_account(派生指标生成的dws汇总逻辑表)。

补数据

按顺序补数据:先右键上游的表 -> 补数据 ->补当前任务 (如果第三个指标粒度也是全表被融合在了dws_account中此时应该有三个上游)。

业务日期选择默认的即可(默认前一天 本实验为一天完成 故选择前一天即可)。

补第二个上游。

d.点击补数据实例,可以看到上游完成了。

e.上游数据补完后,返回刚才补数据页面进行补汇总逻辑表数据。

9.  通过即席查询校验dws汇总逻辑表数据

点击开发板块 ,点击即席查询,点击上面验证集成数据时创建的即席任务。

填写sql语句并且执行

select * from LD_TRAINING.dws_amount where ds > 0 ; 。

**注意 :LD_TRAINING为业务板块名,记得选择这块sql代码块点击执行,不然会把上面的sql也执行出来。

查看数据。

10.  标签开发

本步骤指导您如何制作每个客户历史至今租凭影碟的数量和每个客户历史至今归还影碟的数量两个标签。

2个标签:

每个客户历史至今租凭影碟的数量

每个客户历史至今归还影碟的数量

(1)创建实体ID

查看用户名,也是登录dataphin的用户名后缀(要考的,规范命名)。

点击萃取模块,进入其中。

点击实体ID,并点击创建实体ID。

配置实体id

ID名称: 消费者id_userxxx(你的用户名)。

ID英文名:customer_id_userxxx(你的用户名)。

所属ID类目:GTS实验室/消费者ID。

点击确认并且提交(萃取模块无需发布,所以不用进入发布板块进行发布任务)。

#注意:因为萃取空间是大家公用的非沙箱空间,请务必只创建不删除,以免影响其他实验者操作

(2)创建标签类目 - 消费者租赁DVD数量

点击平台管理,点击GTS实验室后面添加子类。

配置标签

类目名称:消费者租赁DVD数量_userxxx(你的用户名)。

点击确定保存。

(3)创建标签类目 - 消费者归还DVD数量

点击平台管理,点击GTS实验室后面添加子类。

配置标签

类目名称:消费者归还DVD数量_userxxx(你的用户名)。

点击确定保存。

(4)上挂标签-消费者租赁dvd数量

点击注册上挂标签,并点击新建。

配置标签

选择物理表。

选择 data_distill.rental_dvd表(注意:此表为租赁dvd表粒度为学员,已定开生成完成.无需学员生成此表直接选择即可)。

选择对应自己创建的实体id。

ID_VALUE 填写 key_type。

分区 填写ds。

将key_id挪到右边并更改命名"用户租赁dvd数量",同时放到gts实验室/消费者租赁数量_userxxx(对应你的用户名)。

确定并且提交。

(5)上挂标签-消费者归还dvd数量

点击注册上挂标签,并点击新建。

配置标签

选择物理表。

选择 data_distill.return_dvd表(注意:此表为归还dvd表粒度为学员,已定开生成完成.无需学员生成此表直接选择即可)。

选择对应自己创建的实体id。

ID_VALUE 填写 key_type。

分区 填写ds。

将key_id挪到右边并更改命名"用户归还dvd数量",同时放到gts实验室/消费者租归还数量_userxxx(对应你的用户名)。

确定并且提交。

(6)创建标签逻辑表并且挂载

点击标签逻辑表,并点击新建。

配置标签逻辑表。

点击保存并提交。

(7)补数据

点击去运维 进入到运营板块。

看到生成的标签逻辑表。

右键任务,进行补当前任务。

务必选择20221130时间点,因为上游表rental_dvd以及return_dvd只有20221130分区(实际情况会生成计算任务进行每日维护,因本次为实验故只存放一天数据)。

点击确定。

(8)校验数据

点击开发 进入到开发板。

点击即席查询并点击之前创建好的即席任务。

执行select * from LD_distill.label_customer_userxxx(之前创建好的标签逻辑表) where ds >0。

选中上面代码,点击运行,查看结果。

实验链接:https://developer.aliyun.com/adc/scenario/fa0cba97767d4fb2a795113d3414b085

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
8月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7天前
|
数据采集 自然语言处理 供应链
央国企“严选”的瓴羊,如何让数据“供得出、流得动、用得好”?|【瓴羊Dataphin在信通院2024数据资产管理大会】
在产业变革新浪潮下,数据资产管理步入“繁花时代”,瓴羊高级解决方案专家黄彦之出席2024数据资产管理大会并分享了瓴羊基于12年阿里最佳数据实践,通过Dataphin等产品助力央国企数智化转型的路径与方法。大会发布《数据治理产业图谱3.0》,瓴羊Dataphin入选BUCM板块代表产品,彰显其领先经验。
62 18
|
2月前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
148 3
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
2月前
|
安全 Java 数据库连接
Dataphin的数据共享的应用场景和方案
不同的业务场景对数据访问和使用有着各自独特的需求,从简单的数据下载到复杂的跨系统集成,选择合适的数据共享与访问方式至关重要。本文旨在探讨几种常见的Dataphin上的数据共享与访问机制——包括数据复制、数据下载、视图创建、行级及列级权限控制、API数据服务以及JDBC连接等,并分析它们各自的适用场景、优势及限制,以帮助企业更好地根据自身需求做出合理的选择。
120 0
|
3月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
5月前
|
消息中间件 Kafka SQL
|
6月前
|
SQL 运维 安全
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
2052 2
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
5月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
234 1
|
7月前
|
存储 SQL 多模数据库
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
Lindorm通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
|
6月前
|
运维 关系型数据库 调度
想一套Dataphin管理云上云下的集群和数据?“注册调度集群”来帮忙!
在实际业务场景中,部分企业在云上和云下(本地机房)都存在集群和数据库,企业期望通过一套Dataphin同时对这些集群和数据库进行管理,如何有效解决数据跨网络传输带来的安全性低和流量成本高的问题是其中的关键。为了解决上述问题,Dataphin推出“注册调度集群”功能,帮助企业实现一套Dataphin管理云上云下的集群和数据。

热门文章

最新文章