基于DataWorks+MaxCompute的企业本地数据上云实践

本文涉及的产品
DataWorks独享数据集成资源组,8核16GB 1个月
大数据开发治理平台 DataWorks,不限时长
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 基于DataWorks+MaxCompute的企业本地数据上云实践
+关注继续查看

实验内容:

实验数据来自一家大型石油气配送企业,目前业务区域已经涵盖湖北省内大部分城市。企业面向的客户身份比较复杂,主要分为五类客户群体:居民、商户、上门、信用客户、合作商。

居民,商户,上门的区别主要是价格不同,居民客户是指用量少的客户,商户是指用量比较大的客户,上门客户是指离直营门店近的客户,具体的购买价格(按每公斤单价)排序:居民 > 上门 > 商户。

信用客户是指可以先送气后结账的客户。

合作商是指企业的合作商户,直接从企业批量订购石油气卖给当地客户。

本次实验主要将企业的数据上传到MaxCompute数仓,在云端对这些客户数据进行统计,得到每个分类下的客户数量。


实验思路:

1.进入DataWorks上传本地数据到MaxCompute数仓。

2.通过DataWorks对MaxCompute数仓数据进行查询操作。


实验步骤:

下载CSV文件。

DataWorks上传的默认数据源为CSV文件,实验前需要先下载CSV文件。

https://university-labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%AE%8F%E9%B9%8F--%E5%A4%A7%E6%95%B0%E6%8D%AEACA/gas.csv

在【产品与服务列表】搜索框输入DataWorks,在搜索结果中点击大数据开发治理平台DataWorks,进入DataWorks控制台

image.png

image.png

点击进入工作空间,选择数据开发。

image.png

点击目录栏,选择上传和下载。

image.png

点击上传,选择数据上传按钮。

image.png

选择刚刚下载的文件。

image.png

image.png

DataWorks会自动解析上传的CSV数据,所有字段属性都设置STRING。

image.png

由于DataWorks不支持字段名为中文,需要将字段名称改为英文或数字,修改字段名称,如下图所示:

image.png

上方的表格为上传的CSV文件预览数据,点击【提交】将数据保存到MaxCompute数仓。

image.png

点击提交按钮的效果如下图所示:

image.png

上传完成后会跳转到表管理页面,如下图所示:

image.png

点击数据查询。

image.png

找到【我的MaxCompute表】点击【添加】,在左侧出现【我的MaxCompute表】

只有添加了我的MaxCompute表数据集后才能继续实验。

image.png

如图,在搜索框输入【test_gas】,下方出现刚才创建的数据表

image.png

image.png

在右侧出现对应的SQL查询语句。

image.png

效果如下图所示,自动生成了一个临时文件,并自动生成了刚刚创建的test_gas表的SQL语句

在查询上传的数据之前,先按照以下步骤对数据源进行授权

如下图,首先点击右上角 按钮,然后点击【数据源】下拉框,再点击【安全中心】进行页面跳转

image.png

image.png

运行效果如下图所示:

image.png



体验客户分类的统计操作

查询居民身份的客户数据

在SQL查询编辑页面,删除上一步自动生成的SQL语句,输入以下SQL语句,并如下图所示将项目名称修改过来(注意:SQL语句中的项目名称一定要与当前MaxCompute项目名称一致)

SELECT  col_1 -- name
        ,col_2 -- type
        ,col_3 -- city
        ,col_4 -- area
        ,col_5 -- floor
        ,col_6 -- yajin
FROM    u_vtqgxl1n_1696059289.test_gas
where col_2='居民'
LIMIT   200
;
//相比前一段SQL代码,增加了WHERE 客户身份 = ‘居民’WHERE 代表增加查询条件,这段SQL代码的查询条件为客户身份等于【居民】的数据

运行效果如下图所示,所有的居民客户就出现了

image.png


实验总结:

通过本次实验,学会了如何将本地数据上传到阿里云MaxCompute数仓,同时学习了如何查询,筛选我们上传的数据。

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1天前
|
分布式计算 DataWorks 网络安全
DataWorks中绑定MaxCompute引擎时发生了非法参数异常
DataWorks中绑定MaxCompute引擎时发生了非法参数异常
12 2
|
5天前
|
分布式计算 DataWorks 调度
DataWorks在绑定MaxCompute并进行周期性调度前
DataWorks在绑定MaxCompute并进行周期性调度前
14 2
|
1月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
13 1
|
2月前
|
分布式计算 运维 监控
DataWorks如何配置MaxCompute监控进行订阅管理?
DataWorks如何配置MaxCompute监控进行订阅管理?
27 1
|
2月前
|
SQL 存储 分布式计算
基于MaxCompute+DataWorks离线同步某电商用户购买记录实践
本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。
|
2月前
|
SQL 分布式计算 DataWorks
基于DataWorks+MaxCompute的员工配送业务绩效考核分析
基于DataWorks+MaxCompute的员工配送业务绩效考核分析
|
3月前
|
SQL 数据采集 分布式计算
基于DataWorks+MaxCompute的公共电影票房数据预处理实践
本次实验对春节档每日票房的数据进行预处理,主要是数据清洗(例如空值过滤,条件筛选),数据转换(例如含有相同属性的两条数据合并为一条数据)。通过本次实验让大家掌握阿里云大数据产品DataWorks及MaxCompute的基本使用。
|
5月前
|
SQL 分布式计算 编译器
MaxCompute - ODPS重装上阵 第十弹 -IF ELSE分支语句
MaxCompute通过脚本模式支持IF ELSE分支语句,让程序根据条件自动选择执行逻辑,支持更好的处理因数据不同而需要采用不同策略的业务场景产生的复杂SQL,提高开发者编程的灵活性!
427 2
|
5月前
|
SQL 存储 分布式计算
ODPS(MaxCompute)不支持解析和执行SQL语句中的Hint语句
ODPS(MaxCompute)不支持解析和执行SQL语句中的Hint语句
117 2
|
5月前
|
SQL 分布式计算 MaxCompute
ODPS(MaxCompute)不支持解析和执行SQL语句中的Lateral View语法
ODPS(MaxCompute)不支持解析和执行SQL语句中的Lateral View语法
136 1
热门文章
最新文章
推荐文章
更多