基于DataWorks+MaxCompute的企业本地数据上云实践

简介: 基于DataWorks+MaxCompute的企业本地数据上云实践

实验内容:

实验数据来自一家大型石油气配送企业,目前业务区域已经涵盖湖北省内大部分城市。企业面向的客户身份比较复杂,主要分为五类客户群体:居民、商户、上门、信用客户、合作商。

居民,商户,上门的区别主要是价格不同,居民客户是指用量少的客户,商户是指用量比较大的客户,上门客户是指离直营门店近的客户,具体的购买价格(按每公斤单价)排序:居民 > 上门 > 商户。

信用客户是指可以先送气后结账的客户。

合作商是指企业的合作商户,直接从企业批量订购石油气卖给当地客户。

本次实验主要将企业的数据上传到MaxCompute数仓,在云端对这些客户数据进行统计,得到每个分类下的客户数量。


实验思路:

1.进入DataWorks上传本地数据到MaxCompute数仓。

2.通过DataWorks对MaxCompute数仓数据进行查询操作。


实验步骤:

下载CSV文件。

DataWorks上传的默认数据源为CSV文件,实验前需要先下载CSV文件。

https://university-labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%AE%8F%E9%B9%8F--%E5%A4%A7%E6%95%B0%E6%8D%AEACA/gas.csv

在【产品与服务列表】搜索框输入DataWorks,在搜索结果中点击大数据开发治理平台DataWorks,进入DataWorks控制台

image.png

image.png

点击进入工作空间,选择数据开发。

image.png

点击目录栏,选择上传和下载。

image.png

点击上传,选择数据上传按钮。

image.png

选择刚刚下载的文件。

image.png

image.png

DataWorks会自动解析上传的CSV数据,所有字段属性都设置STRING。

image.png

由于DataWorks不支持字段名为中文,需要将字段名称改为英文或数字,修改字段名称,如下图所示:

image.png

上方的表格为上传的CSV文件预览数据,点击【提交】将数据保存到MaxCompute数仓。

image.png

点击提交按钮的效果如下图所示:

image.png

上传完成后会跳转到表管理页面,如下图所示:

image.png

点击数据查询。

image.png

找到【我的MaxCompute表】点击【添加】,在左侧出现【我的MaxCompute表】

只有添加了我的MaxCompute表数据集后才能继续实验。

image.png

如图,在搜索框输入【test_gas】,下方出现刚才创建的数据表

image.png

image.png

在右侧出现对应的SQL查询语句。

image.png

效果如下图所示,自动生成了一个临时文件,并自动生成了刚刚创建的test_gas表的SQL语句

在查询上传的数据之前,先按照以下步骤对数据源进行授权

如下图,首先点击右上角 按钮,然后点击【数据源】下拉框,再点击【安全中心】进行页面跳转

image.png

image.png

运行效果如下图所示:

image.png



体验客户分类的统计操作

查询居民身份的客户数据

在SQL查询编辑页面,删除上一步自动生成的SQL语句,输入以下SQL语句,并如下图所示将项目名称修改过来(注意:SQL语句中的项目名称一定要与当前MaxCompute项目名称一致)

SELECT  col_1 -- name
        ,col_2 -- type
        ,col_3 -- city
        ,col_4 -- area
        ,col_5 -- floor
        ,col_6 -- yajin
FROM    u_vtqgxl1n_1696059289.test_gas
where col_2='居民'
LIMIT   200
;
//相比前一段SQL代码,增加了WHERE 客户身份 = ‘居民’WHERE 代表增加查询条件,这段SQL代码的查询条件为客户身份等于【居民】的数据

运行效果如下图所示,所有的居民客户就出现了

image.png


实验总结:

通过本次实验,学会了如何将本地数据上传到阿里云MaxCompute数仓,同时学习了如何查询,筛选我们上传的数据。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
9月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
9月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
2903 0
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
10月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
1001 1
|
10月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
357 4
|
10月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
459 0
大数据之路:阿里巴巴大数据实践——离线数据开发
|
10月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
457 3
|
10月前
|
机器学习/深度学习 存储 分布式计算
ODPS驱动电商仓储革命:动态需求预测系统的落地实践
本方案基于ODPS构建“预测-仿真-决策”闭环系统,解决传统仓储中滞销积压与爆款缺货问题。通过动态特征工程、时空融合模型与库存仿真引擎,实现库存周转天数下降42%,缺货率下降65%,年损减少5000万以上,显著提升运营效率与GMV。
958 1
|
9月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
678 0
|
10月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
489 0
|
7月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
484 7