基于星轨-数据中台工具的数据探查
1. 创建实验资源
在实验开始之前,您需要创建相关实验资源。
在实验室页面,单击创建资源。
(可选)在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如IP地址、用户信息等)。
说明:资源创建过程需要1~3分钟。
2. DataWorks数据上云
本步骤指导您将如何将ECS服务器中的数据传入到DataWorks。
在实验室页面,单击左侧的 图标,连接火眼部署的ECS服务器。
在终端页面,执行如下命令,将数据上传到DataWorks。
cd /root python table_2_odps.py AKID AKSecret DataWorks项目名称
说明:您需要将命令中的AKID、AKSecret和DataWorks项目名称替换成云产品资源列表中的AK ID、AK Secret和DataWorks项目名称。
等待数据上云完毕。返回结果如下,表示已完成。
3. 修改火眼配置,为DataWorks注册火眼盘点函数
本步骤指导您如何修改火眼配置,为DataWorks注册火眼盘点函数。
修改火眼配置文件。
1.1 执行如下命令,编辑dmdws-script.env文件。
cd /dmadt/env vim dmdws-script.env
1.2 按i键进入编辑模式, 将accessId、accessKey和project_name参数分别修改为云产品资源列表中的AK ID、AK Secret和DataWorks项目名称,将endpoint修改为http://service.cn-shanghai.maxcompute.aliyun-inc.com/api 。
1.3 修改完成后,按esc键,进入命令模式,输入:wq并回车保存。
1.4 执行以下命令。
docker-compose up -d
为DataWorks注册火眼盘点函数。
2.1 在实验室页面右侧功能栏中,单击 图标,连接火眼部署的ECS服务器。
2.2 双击打开远程桌面的Chromium网页浏览器。
2.3 在RAM用户登录框中单击下一步,并复制粘贴页面左上角的子用户密码到用户密码输入框,单击登录。
2.4 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问DataWorks管理控制台。
https://workbench.data.aliyun.com/
2.5 在左侧导航栏中,单击工作空间列表。
2.6 在工作空间列表页面顶部,选择资源所在地域。例如下图中,地域切换为华东2(上海)。
说明:您可在云产品资源列表中查看DataWorks资源所在地域。
2.7 在工作空间列表页面,找到您的资源,单击右侧操作列下的数据开发。
说明:您可在云产品资源列表中查看您的DataWorks资源。
2.8 在数据开发页面左侧功能栏中,选择新建>新建业务流程。
2.9 在新建业务流程对话框中,业务名称输入data_exploration,单击新建。
2.10 复制下方地址,在Chromium网页浏览器打开新页签,下载接下来需要上传的资源包。
https://labfileapp.oss-cn-hangzhou.aliyuncs.com/dataprofiling.jar
2.11 在数据开发页面的业务流程区域,选择data_exploration>MaxComoute,右键资源,选择新建资源>JAR。
2.12 在新建资源对话框中,单击点击上传,选择刚刚下载的资源包,然后单击新建。
2.13 在dataprofiling.jar页签,单击提交按钮。
2.14 在提交新版本对话框中,单击确定。
2.15 在数据开发页面的业务流程区域,选择data_exploration>MaxCompute,右键函数,单击新建函数。
2.16 在新建函数对话框中,名称输入profiling_bigint,单击新建。
2.17 在profiling_bigint页签中,类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingBigint,资源列表输入dataprofiling.jar,命令格式输入string profiling_bigint(clo1),然后单击保存按钮和提交按钮。
2.18 在提交新版本对话框中,单击确定。
2.19 在数据开发页面的业务流程区域,选择data_exploration>MaxCompute,右键函数,单击新建函数。
2.20 在新建函数对话框中,名称输入profiling_double,单击新建。
2.21 在profiling_double页签中,类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingDouble,资源列表输入dataprofiling.jar,命令格式输入string profiling_double(clo1),然后单击保存按钮和提交按钮。
2.22 在提交新版本对话框中,单击确定。
2.23 在数据开发页面的业务流程区域,选择data_exploration>MaxCompute,右键函数,单击新建函数。
2.24 在新建函数对话框中,名称输入profiling_string,单击新建。
2.25 在profiling_string页签中,类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingString,资源列表输入dataprofiling.jar,命令格式输入string profiling_string(clo1),然后单击保存按钮和提交按钮。
2.16 在提交新版本对话框中,单击确定。
4. 使用DataWors进行数据探查
本步骤指导您如何使用DataWorks进行数据探查。
为表格添加探查规则。
1.1 在数据开发页面,选择 图标>全部产品>数据质量。
1.2 在左侧菜单栏,选择规则关联>按模板配置。
1.3 在表级规则页签,找到要监控的规则,单击配置监控规则。本实验以表行数,固定值模板为例。
1.4 在规定设定配置页签,单击下一步。
1.5 在生成规则配置页签,单击添加表。
1.6 在添加表对话框中,选中全部三张表,单击添加按钮。
1.7 在生成规则配置页签,选中全部三张表,单击设置分区表达式。
1.8 在批量设置分区表达式对话框中,分区表达式选择pt=$[yyyymmdd],单击确认。
1.9 在生成规则配置页签,单击生成规则。
1.10 在规则验证配置页签,在关联调度节点列下,单击点击。
1.11 在关联调度对话框中,在任务节点框中,输入root,在下拉列表会出现一个项目空间默认的root打头的空节点,单击该节点,然后单击添加。
1.12 在关联调度对话框中,单击确认。
1.13 根据1.10-1.12步骤,配置其他规则的关联调度节点。
1.14 在规则验证配置页签,全部规则的关联调度节点添加完毕后,单击右侧操作列下的试跑。
1.15 在试跑对话框中,单击试跑。
1.16 在规则验证配置页签,在试跑状态列下成功后,根据1.14-1.15步骤,试跑其他规则。
1.17 在规则验证配置页签,当所有的试跑状态都为成功后,选择左下角的保存>确认。
1.18 在左侧控制台,选择规则管理>规则列表。
1.19 在规则列表页面,选择刚刚添加的表,单击订阅管理。
1.20 在订阅管理对话框,订阅方式选择邮件通知,接受对象选择实验室为您分配的子账号,单击保存,然后单击关闭。
说明:您可在实验页面左上角的查看实验室分配的子账号。
查看探查结果与校验。
2.1 在左侧导航栏中,单击我的订阅。
2.2 在我的订阅页面,选择ods_ab01表,单击右侧操作列下的上次结果。
返回如下页面,您可查看到上次采样结果为400条记录。
2.3 在浏览器中,切换至DataWorks的数据开发页签。在左侧导航栏中,单击临时查询。
2.4 在临时查询区域,右键临时查询,选择新建节点>ODPS SQL。
2.5 在新建节点对话框中,单击提交。
2.6 在ODPS SQL临时查询页签中,输入如下SQL语句,单击运行按钮。
select count(1) from DataWorks工作空间名称.ods_ab01 where pt='时间'
说明:您需要将SQL语句中的DataWorks工作空间名称修改为云产品资源列表中的DataWorks工作空间名称,时间修改为您运行时的日期,格式为yyyymmdd。
2.7 在参数对话框中,单击确定。
2.8 在费用估计对话框中,单击运行。
返回如下结果,您可查看到通过SQL语句显示出表的数据条数,与探查结果一致。
5. 登陆火眼首页
本步骤指导您如何登录火眼数据中台管理系统。
说明:本实验环境已提前预装火眼工具,您可直接使用。
在您的本机浏览器中打开新页签,在地址栏中输入并访问http://<ECS公网地址>。
说明:您需要将<ECS公网地址>替换为云产品列表中的ECS公网地址。
在火眼数据中台管理系统登录页面,依次输入用户名admin、密码dmadt@gts和验证码,然后单击登录。
6. 配置MaxCompute数据源
本步骤指导您如何将MaxCompute数据源配置到火眼中。
在左侧导航栏中,选择配置管理>源端数据源。
在源端数据源管理页面,单击新增。
在添加数据源对话框中,参考如下说明配置数据库信息,然后单击测试链接。
数据源类型:选择MaxCompute,MaxCompute。
数据源名称:自定义数据源名称,例如test。
Endpoint:填写http://service.cn-shanghai.maxcompute.aliyun-inc.com/api。
Project Name:填写云产品资源列表中的DataWorks的工作空间名称。
Access ID:填写云产品资源列表中的AK ID。
Access Key:填写云产品资源列表中的AK AK Secret。
模块名称:全部选中。本实验只涉及数据盘点,其他模块在后续实验中完成。
在添加数据源对话框中,上方出现测试链接成功提示后,单击确定。
返回如下页面,您可以查看到新添加的数据源。
7. 数据盘点
本步骤指导您如何使用火眼对MaxCompute进行数据盘点。
在左侧导航栏中,选择数据盘点>数据盘点。
在数据盘点页面,找到您新添加的数据源,单击右侧操作列下的一键数据盘点。
在警告对话框中,单击确定
在数据盘点页面,请您耐心等待并刷新页面,当盘点状态为已盘点时,表示您已成功完成盘点。
8. 火眼数据探查
本步骤指导您使用火眼对MaxCompute进行数据探查。
数据探查任务配置。
1.1 在左侧导航栏中,选择数据探查>探查任务管理。
1.2 在探查任务管理页面,单击新建。
1.3 在新建对话框中,选中数据探查,单击确认。
1.3 在新增探查任务页面,填写探查任务名称,选中所有表数据,然后单击确定。
返回如下页面,您可看到刚刚新建的探查任务。
数据探查及探查报告查看。
2.1 在探查任务管理页面,找到您刚创建的探查任务,单击右侧操作列下的探查按钮。
2.2 在警告对话框中,单击确定。
2.3 在探查任务管理页面,请你耐心等待并刷新页面,最新状态变为已完成后,单击右侧探查报告。
2.4 在探查任务报告页面,单击任意一张数据表,即可查数据表每个字段的探查结果。
实验链接:https://developer.aliyun.com/adc/scenario/64d132ddab9d4e2785c55d0e32a8d9e4