基于星轨-数据中台工具的数据探查

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 使用DataWorks对MaxCompute进行数据探查,通过星轨-数据中台工具进行对MaxCompute的数据探查

基于星轨-数据中台工具的数据探查

1. 创建实验资源

在实验开始之前,您需要创建相关实验资源。

在实验室页面,单击创建资源

(可选)在实验室页面左侧导航栏中,单击云产品资源列表,可查看本次实验资源相关信息(例如IP地址、用户信息等)。

说明:资源创建过程需要1~3分钟。

2. DataWorks数据上云

本步骤指导您将如何将ECS服务器中的数据传入到DataWorks。

在实验室页面,单击左侧的 图标,连接火眼部署的ECS服务器。

在终端页面,执行如下命令,将数据上传到DataWorks。

cd /root
python table_2_odps.py AKID  AKSecret DataWorks项目名称

说明:您需要将命令中的AKID、AKSecret和DataWorks项目名称替换成云产品资源列表中的AK ID、AK Secret和DataWorks项目名称。

等待数据上云完毕。返回结果如下,表示已完成。


3. 修改火眼配置,为DataWorks注册火眼盘点函数

本步骤指导您如何修改火眼配置,为DataWorks注册火眼盘点函数。

修改火眼配置文件。

1.1 执行如下命令,编辑dmdws-script.env文件。

cd /dmadt/env
vim dmdws-script.env

1.2 按i键进入编辑模式, 将accessId、accessKey和project_name参数分别修改为云产品资源列表中的AK ID、AK Secret和DataWorks项目名称,将endpoint修改为http://service.cn-shanghai.maxcompute.aliyun-inc.com/api

1.3 修改完成后,按esc键,进入命令模式,输入:wq并回车保存。

1.4 执行以下命令。

docker-compose up -d

为DataWorks注册火眼盘点函数。

2.1 在实验室页面右侧功能栏中,单击 图标,连接火眼部署的ECS服务器。

2.2 双击打开远程桌面的Chromium网页浏览器

2.3 在RAM用户登录框中单击下一步,并复制粘贴页面左上角的子用户密码用户密码输入框,单击登录

2.4 复制下方地址,在Chromium网页浏览器打开新页签,粘贴并访问DataWorks管理控制台。

https://workbench.data.aliyun.com/

2.5 在左侧导航栏中,单击工作空间列表

2.6 在工作空间列表页面顶部,选择资源所在地域。例如下图中,地域切换为华东2(上海)。

说明:您可在云产品资源列表中查看DataWorks资源所在地域。

2.7 在工作空间列表页面,找到您的资源,单击右侧操作列下的数据开发

说明:您可在云产品资源列表中查看您的DataWorks资源。

2.8 在数据开发页面左侧功能栏中,选择新建>新建业务流程

2.9 在新建业务流程对话框中,业务名称输入data_exploration,单击新建

2.10 复制下方地址,在Chromium网页浏览器打开新页签,下载接下来需要上传的资源包。

https://labfileapp.oss-cn-hangzhou.aliyuncs.com/dataprofiling.jar

2.11 在数据开发页面的业务流程区域,选择data_exploration>MaxComoute,右键资源,选择新建资源>JAR

2.12 在新建资源对话框中,单击点击上传,选择刚刚下载的资源包,然后单击新建

2.13 在dataprofiling.jar页签,单击提交按钮。

2.14 在提交新版本对话框中,单击确定

2.15 在数据开发页面的业务流程区域,选择data_exploration>MaxCompute,右键函数,单击新建函数

2.16 在新建函数对话框中,名称输入profiling_bigint,单击新建

2.17 在profiling_bigint页签中,类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingBigint,资源列表输入dataprofiling.jar,命令格式输入string profiling_bigint(clo1),然后单击保存按钮和提交按钮。

2.18 在提交新版本对话框中,单击确定

2.19 在数据开发页面的业务流程区域,选择data_exploration>MaxCompute,右键函数,单击新建函数

2.20 在新建函数对话框中,名称输入profiling_double,单击新建

2.21 在profiling_double页签中,类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingDouble,资源列表输入dataprofiling.jar,命令格式输入string profiling_double(clo1),然后单击保存按钮和提交按钮。

2.22 在提交新版本对话框中,单击确定

2.23 在数据开发页面的业务流程区域,选择data_exploration>MaxCompute,右键函数,单击新建函数

2.24 在新建函数对话框中,名称输入profiling_string,单击新建

2.25 在profiling_string页签中,类名输入com.alibaba.dt.onedata3.profiling.udaf.ProfilingString,资源列表输入dataprofiling.jar,命令格式输入string profiling_string(clo1),然后单击保存按钮和提交按钮。

2.16 在提交新版本对话框中,单击确定


4. 使用DataWors进行数据探查

本步骤指导您如何使用DataWorks进行数据探查。

为表格添加探查规则。

1.1 在数据开发页面,选择 图标>全部产品>数据质量

1.2 在左侧菜单栏,选择规则关联>按模板配置

1.3 在表级规则页签,找到要监控的规则,单击配置监控规则。本实验以表行数,固定值模板为例。

1.4 在规定设定配置页签,单击下一步

1.5 在生成规则配置页签,单击添加表

1.6 在添加表对话框中,选中全部三张表,单击添加按钮

1.7 在生成规则配置页签,选中全部三张表,单击设置分区表达式

1.8 在批量设置分区表达式对话框中,分区表达式选择pt=$[yyyymmdd],单击确认

1.9 在生成规则配置页签,单击生成规则

1.10 在规则验证配置页签,在关联调度节点列下,单击点击

1.11 在关联调度对话框中,在任务节点框中,输入root,在下拉列表会出现一个项目空间默认的root打头的空节点,单击该节点,然后单击添加

1.12 在关联调度对话框中,单击确认

1.13 根据1.10-1.12步骤,配置其他规则的关联调度节点。

1.14 在规则验证配置页签,全部规则的关联调度节点添加完毕后,单击右侧操作列下的试跑

1.15 在试跑对话框中,单击试跑

1.16 在规则验证配置页签,在试跑状态列下成功后,根据1.14-1.15步骤,试跑其他规则。

1.17 在规则验证配置页签,当所有的试跑状态都为成功后,选择左下角的保存>确认

1.18 在左侧控制台,选择规则管理>规则列表

1.19 在规则列表页面,选择刚刚添加的表,单击订阅管理

1.20 在订阅管理对话框,订阅方式选择邮件通知,接受对象选择实验室为您分配的子账号,单击保存,然后单击关闭

说明:您可在实验页面左上角的查看实验室分配的子账号。

查看探查结果与校验。

2.1 在左侧导航栏中,单击我的订阅

2.2 在我的订阅页面,选择ods_ab01表,单击右侧操作列下的上次结果

返回如下页面,您可查看到上次采样结果为400条记录。

2.3 在浏览器中,切换至DataWorks的数据开发页签。在左侧导航栏中,单击临时查询

2.4 在临时查询区域,右键临时查询,选择新建节点>ODPS SQL

2.5 在新建节点对话框中,单击提交

2.6 在ODPS SQL临时查询页签中,输入如下SQL语句,单击运行按钮。

select count(1) from DataWorks工作空间名称.ods_ab01 where pt='时间'

说明:您需要将SQL语句中的DataWorks工作空间名称修改为云产品资源列表中的DataWorks工作空间名称,时间修改为您运行时的日期,格式为yyyymmdd。

2.7 在参数对话框中,单击确定

2.8 在费用估计对话框中,单击运行

返回如下结果,您可查看到通过SQL语句显示出表的数据条数,与探查结果一致。


5. 登陆火眼首页

本步骤指导您如何登录火眼数据中台管理系统。

说明:本实验环境已提前预装火眼工具,您可直接使用。

您的本机浏览器中打开新页签,在地址栏中输入并访问http://<ECS公网地址>

说明:您需要将<ECS公网地址>替换为云产品列表中的ECS公网地址。

在火眼数据中台管理系统登录页面,依次输入用户名admin、密码dmadt@gts和验证码,然后单击登录。


6. 配置MaxCompute数据源

本步骤指导您如何将MaxCompute数据源配置到火眼中。

在左侧导航栏中,选择配置管理>源端数据源。

在源端数据源管理页面,单击新增。

在添加数据源对话框中,参考如下说明配置数据库信息,然后单击测试链接

数据源类型:选择MaxComputeMaxCompute

数据源名称:自定义数据源名称,例如test

Endpoint:填写http://service.cn-shanghai.maxcompute.aliyun-inc.com/api

Project Name:填写云产品资源列表中的DataWorks的工作空间名称。

Access ID:填写云产品资源列表中的AK ID。

Access Key:填写云产品资源列表中的AK AK Secret。

模块名称:全部选中。本实验只涉及数据盘点,其他模块在后续实验中完成。

在添加数据源对话框中,上方出现测试链接成功提示后,单击确定。

返回如下页面,您可以查看到新添加的数据源。


7. 数据盘点

本步骤指导您如何使用火眼对MaxCompute进行数据盘点。

在左侧导航栏中,选择数据盘点>数据盘点

数据盘点页面,找到您新添加的数据源,单击右侧操作列下的一键数据盘点

警告对话框中,单击确定

数据盘点页面,请您耐心等待并刷新页面,当盘点状态为已盘点时,表示您已成功完成盘点。


8. 火眼数据探查

本步骤指导您使用火眼对MaxCompute进行数据探查。

数据探查任务配置。

1.1 在左侧导航栏中,选择数据探查>探查任务管理

1.2 在探查任务管理页面,单击新建

1.3 在新建对话框中,选中数据探查,单击确认

1.3 在新增探查任务页面,填写探查任务名称,选中所有表数据,然后单击确定

返回如下页面,您可看到刚刚新建的探查任务。

数据探查及探查报告查看。

2.1 在探查任务管理页面,找到您刚创建的探查任务,单击右侧操作列下的探查按钮。

2.2 在警告对话框中,单击确定

2.3 在探查任务管理页面,请你耐心等待并刷新页面,最新状态变为已完成后,单击右侧探查报告

2.4 在探查任务报告页面,单击任意一张数据表,即可查数据表每个字段的探查结果。

实验链接:https://developer.aliyun.com/adc/scenario/64d132ddab9d4e2785c55d0e32a8d9e4

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
4月前
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
3月前
LangChain-26 Custom Agent 自定义一个Agent并通过@tool绑定对应的工具 同时让大模型自己调用编写的@tools函数
LangChain-26 Custom Agent 自定义一个Agent并通过@tool绑定对应的工具 同时让大模型自己调用编写的@tools函数
109 3
LangChain-26 Custom Agent 自定义一个Agent并通过@tool绑定对应的工具 同时让大模型自己调用编写的@tools函数
|
4月前
|
机器学习/深度学习 数据可视化 数据挖掘
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
本文探讨了如何通过数据飞轮激活数据中台的潜力,实现数据驱动的创新。文章分析了数据中台面临的挑战,如数据孤岛和工具复杂性,并提出了建立统一数据治理架构、引入自动化数据管道和强化数据与业务融合等策略。通过实际案例和技术示例,展示了如何利用数据飞轮实现业务增长,强调了数据可视化和文化建设的重要性。旨在帮助企业充分挖掘数据价值,提升决策效率。
103 1
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
|
4月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
4月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
152 4
|
4月前
|
机器学习/深度学习 搜索推荐 算法
从数据中台到数据飞轮:企业升级的必然之路
在探讨是否需从数据中台升级至数据飞轮前,我们应先理解两者之间的关系。数据中台作为数据集成、清洗及治理的强大平台,是数据飞轮的基础;而要实现数据飞轮,则需进一步增强数据自动化处理与智能化利用能力。借助机器学习与人工智能技术,“转动”数据并创建反馈机制,使数据在循环中不断优化,如改进产品推荐系统,进而形成数据飞轮。此外,为了适应市场变化,企业还需提高数据基础设施的敏捷性和灵活性,这可通过采用微服务架构和云计算技术来达成,从而确保数据系统的快速扩展与调整,支持数据飞轮高效运转。综上所述,数据中台虽为基础,但全面升级至数据飞轮则需在数据自动化处理、反馈机制及系统敏捷性方面进行全面提升。
117 14
|
4月前
|
测试技术
基于LangChain手工测试用例转App自动化测试生成工具
在传统App自动化测试中,测试工程师需手动将功能测试用例转化为自动化用例。市面上多数产品通过录制操作生成测试用例,但可维护性差。本文探讨了利用大模型直接生成自动化测试用例的可能性,介绍了如何使用LangChain将功能测试用例转换为App自动化测试用例,大幅节省人力与资源。通过封装App底层工具并与大模型结合,记录执行步骤并生成自动化测试代码,最终实现高效自动化的测试流程。
|
3月前
LangChain-24 Agengts 通过TavilySearch Agent实现检索内容并回答 AgentExecutor转换Search 借助Prompt Tools工具
LangChain-24 Agengts 通过TavilySearch Agent实现检索内容并回答 AgentExecutor转换Search 借助Prompt Tools工具
53 0
|
3月前
|
机器学习/深度学习 JSON JavaScript
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
52 0
|
3月前
|
数据管理 数据挖掘 大数据
数据飞轮崛起:数据中台真的过时了吗?
数据飞轮崛起:数据中台真的过时了吗?