基于星轨-数据中台工具的数据探查-阿里云开发者社区

基于星轨-数据中台工具的数据探查

2023-09-14 350

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

阿里云百炼推荐规格 ADB PostgreSQL，4核16GB 100GB 1个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 使用DataWorks对MaxCompute进行数据探查，通过星轨-数据中台工具进行对MaxCompute的数据探查

基于星轨-数据中台工具的数据探查

1. 创建实验资源

在实验开始之前，您需要创建相关实验资源。

在实验室页面，单击创建资源。

（可选）在实验室页面左侧导航栏中，单击云产品资源列表，可查看本次实验资源相关信息（例如IP地址、用户信息等）。

说明：资源创建过程需要1~3分钟。

2. DataWorks数据上云

本步骤指导您将如何将ECS服务器中的数据传入到DataWorks。

在实验室页面，单击左侧的图标，连接火眼部署的ECS服务器。

在终端页面，执行如下命令，将数据上传到DataWorks。

cd /root
python table_2_odps.py AKID  AKSecret DataWorks项目名称

说明：您需要将命令中的AKID、AKSecret和DataWorks项目名称替换成云产品资源列表中的AK ID、AK Secret和DataWorks项目名称。

等待数据上云完毕。返回结果如下，表示已完成。

3. 修改火眼配置，为DataWorks注册火眼盘点函数

本步骤指导您如何修改火眼配置，为DataWorks注册火眼盘点函数。

修改火眼配置文件。

1.1 执行如下命令，编辑dmdws-script.env文件。

cd /dmadt/env
vim dmdws-script.env

1.2 按i键进入编辑模式，将accessId、accessKey和project_name参数分别修改为云产品资源列表中的AK ID、AK Secret和DataWorks项目名称，将endpoint修改为http://service.cn-shanghai.maxcompute.aliyun-inc.com/api 。

1.3 修改完成后，按esc键，进入命令模式，输入:wq并回车保存。

1.4 执行以下命令。

docker-compose up -d

为DataWorks注册火眼盘点函数。

2.1 在实验室页面右侧功能栏中，单击图标，连接火眼部署的ECS服务器。

2.2 双击打开远程桌面的Chromium网页浏览器。

2.3 在RAM用户登录框中单击下一步，并复制粘贴页面左上角的子用户密码到用户密码输入框，单击登录。

2.4 复制下方地址，在Chromium网页浏览器打开新页签，粘贴并访问DataWorks管理控制台。

https://workbench.data.aliyun.com/

2.5 在左侧导航栏中，单击工作空间列表。

2.6 在工作空间列表页面顶部，选择资源所在地域。例如下图中，地域切换为华东2（上海）。

说明：您可在云产品资源列表中查看DataWorks资源所在地域。

2.7 在工作空间列表页面，找到您的资源，单击右侧操作列下的数据开发。

说明：您可在云产品资源列表中查看您的DataWorks资源。

2.8 在数据开发页面左侧功能栏中，选择新建>新建业务流程。

2.9 在新建业务流程对话框中，业务名称输入data_exploration，单击新建。

2.10 复制下方地址，在Chromium网页浏览器打开新页签，下载接下来需要上传的资源包。

https://labfileapp.oss-cn-hangzhou.aliyuncs.com/dataprofiling.jar

2.11 在数据开发页面的业务流程区域，选择data_exploration>MaxComoute，右键资源，选择新建资源>JAR。

2.12 在新建资源对话框中，单击点击上传，选择刚刚下载的资源包，然后单击新建。

2.13 在dataprofiling.jar页签，单击提交按钮。

2.14 在提交新版本对话框中，单击确定。

2.15 在数据开发页面的业务流程区域，选择data_exploration>MaxCompute，右键函数，单击新建函数。

2.16 在新建函数对话框中，名称输入profiling_bigint，单击新建。

2.17 在profiling_bigint页签中，类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingBigint，资源列表输入dataprofiling.jar，命令格式输入string profiling_bigint(clo1)，然后单击保存按钮和提交按钮。

2.18 在提交新版本对话框中，单击确定。

2.19 在数据开发页面的业务流程区域，选择data_exploration>MaxCompute，右键函数，单击新建函数。

2.20 在新建函数对话框中，名称输入profiling_double，单击新建。

2.21 在profiling_double页签中，类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingDouble，资源列表输入dataprofiling.jar，命令格式输入string profiling_double(clo1)，然后单击保存按钮和提交按钮。

2.22 在提交新版本对话框中，单击确定。

2.23 在数据开发页面的业务流程区域，选择data_exploration>MaxCompute，右键函数，单击新建函数。

2.24 在新建函数对话框中，名称输入profiling_string，单击新建。

2.25 在profiling_string页签中，类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingString，资源列表输入dataprofiling.jar，命令格式输入string profiling_string(clo1)，然后单击保存按钮和提交按钮。

2.16 在提交新版本对话框中，单击确定。

4. 使用DataWors进行数据探查

本步骤指导您如何使用DataWorks进行数据探查。

为表格添加探查规则。

1.1 在数据开发页面，选择图标>全部产品>数据质量。

1.2 在左侧菜单栏，选择规则关联>按模板配置。

1.3 在表级规则页签，找到要监控的规则，单击配置监控规则。本实验以表行数,固定值模板为例。

1.4 在规定设定配置页签，单击下一步。

1.5 在生成规则配置页签，单击添加表。

1.6 在添加表对话框中，选中全部三张表，单击添加按钮。

1.7 在生成规则配置页签，选中全部三张表，单击设置分区表达式。

1.8 在批量设置分区表达式对话框中，分区表达式选择pt=$[yyyymmdd]，单击确认。

1.9 在生成规则配置页签，单击生成规则。

1.10 在规则验证配置页签，在关联调度节点列下，单击点击。

1.11 在关联调度对话框中，在任务节点框中，输入root，在下拉列表会出现一个项目空间默认的root打头的空节点，单击该节点，然后单击添加。

1.12 在关联调度对话框中，单击确认。

1.13 根据1.10-1.12步骤，配置其他规则的关联调度节点。

1.14 在规则验证配置页签，全部规则的关联调度节点添加完毕后，单击右侧操作列下的试跑。

1.15 在试跑对话框中，单击试跑。

1.16 在规则验证配置页签，在试跑状态列下成功后，根据1.14-1.15步骤，试跑其他规则。

1.17 在规则验证配置页签，当所有的试跑状态都为成功后，选择左下角的保存>确认。

1.18 在左侧控制台，选择规则管理>规则列表。

1.19 在规则列表页面，选择刚刚添加的表，单击订阅管理。

1.20 在订阅管理对话框，订阅方式选择邮件通知，接受对象选择实验室为您分配的子账号，单击保存，然后单击关闭。

说明：您可在实验页面左上角的查看实验室分配的子账号。

查看探查结果与校验。

2.1 在左侧导航栏中，单击我的订阅。

2.2 在我的订阅页面，选择ods_ab01表，单击右侧操作列下的上次结果。

返回如下页面，您可查看到上次采样结果为400条记录。

2.3 在浏览器中，切换至DataWorks的数据开发页签。在左侧导航栏中，单击临时查询。

2.4 在临时查询区域，右键临时查询，选择新建节点>ODPS SQL。

2.5 在新建节点对话框中，单击提交。

2.6 在ODPS SQL临时查询页签中，输入如下SQL语句，单击运行按钮。

select count(1) from DataWorks工作空间名称.ods_ab01 where pt='时间'

说明：您需要将SQL语句中的DataWorks工作空间名称修改为云产品资源列表中的DataWorks工作空间名称，时间修改为您运行时的日期，格式为yyyymmdd。

2.7 在参数对话框中，单击确定。

2.8 在费用估计对话框中，单击运行。

返回如下结果，您可查看到通过SQL语句显示出表的数据条数，与探查结果一致。

5. 登陆火眼首页

本步骤指导您如何登录火眼数据中台管理系统。

说明：本实验环境已提前预装火眼工具，您可直接使用。

在您的本机浏览器中打开新页签，在地址栏中输入并访问http://<ECS公网地址>。

说明：您需要将<ECS公网地址>替换为云产品列表中的ECS公网地址。

在火眼数据中台管理系统登录页面，依次输入用户名admin、密码dmadt@gts和验证码，然后单击登录。

6. 配置MaxCompute数据源

本步骤指导您如何将MaxCompute数据源配置到火眼中。

在左侧导航栏中，选择配置管理>源端数据源。

在源端数据源管理页面，单击新增。

在添加数据源对话框中，参考如下说明配置数据库信息，然后单击测试链接。

数据源类型：选择MaxCompute，MaxCompute。

数据源名称：自定义数据源名称，例如test。

Endpoint：填写http://service.cn-shanghai.maxcompute.aliyun-inc.com/api。

Project Name：填写云产品资源列表中的DataWorks的工作空间名称。

Access ID：填写云产品资源列表中的AK ID。

Access Key：填写云产品资源列表中的AK AK Secret。

模块名称：全部选中。本实验只涉及数据盘点，其他模块在后续实验中完成。

在添加数据源对话框中，上方出现测试链接成功提示后，单击确定。

返回如下页面，您可以查看到新添加的数据源。

7. 数据盘点

本步骤指导您如何使用火眼对MaxCompute进行数据盘点。

在左侧导航栏中，选择数据盘点>数据盘点。

在数据盘点页面，找到您新添加的数据源，单击右侧操作列下的一键数据盘点。

在警告对话框中，单击确定

在数据盘点页面，请您耐心等待并刷新页面，当盘点状态为已盘点时，表示您已成功完成盘点。

8. 火眼数据探查

本步骤指导您使用火眼对MaxCompute进行数据探查。

数据探查任务配置。

1.1 在左侧导航栏中，选择数据探查>探查任务管理。

1.2 在探查任务管理页面，单击新建。

1.3 在新建对话框中，选中数据探查，单击确认。

1.3 在新增探查任务页面，填写探查任务名称，选中所有表数据，然后单击确定。

返回如下页面，您可看到刚刚新建的探查任务。

数据探查及探查报告查看。

2.1 在探查任务管理页面，找到您刚创建的探查任务，单击右侧操作列下的探查按钮。

2.2 在警告对话框中，单击确定。

2.3 在探查任务管理页面，请你耐心等待并刷新页面，最新状态变为已完成后，单击右侧探查报告。

2.4 在探查任务报告页面，单击任意一张数据表，即可查数据表每个字段的探查结果。

实验链接：https://developer.aliyun.com/adc/scenario/64d132ddab9d4e2785c55d0e32a8d9e4

基于星轨-数据中台工具的数据探查

基于星轨-数据中台工具的数据探查

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

基于星轨-数据中台工具的数据探查

基于星轨-数据中台工具的数据探查

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景