基于DataWorks+MaxCompute的企业本地数据上云实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 基于DataWorks+MaxCompute的企业本地数据上云实践

实验内容:

实验数据来自一家大型石油气配送企业,目前业务区域已经涵盖湖北省内大部分城市。企业面向的客户身份比较复杂,主要分为五类客户群体:居民、商户、上门、信用客户、合作商。

居民,商户,上门的区别主要是价格不同,居民客户是指用量少的客户,商户是指用量比较大的客户,上门客户是指离直营门店近的客户,具体的购买价格(按每公斤单价)排序:居民 > 上门 > 商户。

信用客户是指可以先送气后结账的客户。

合作商是指企业的合作商户,直接从企业批量订购石油气卖给当地客户。

本次实验主要将企业的数据上传到MaxCompute数仓,在云端对这些客户数据进行统计,得到每个分类下的客户数量。


实验思路:

1.进入DataWorks上传本地数据到MaxCompute数仓。

2.通过DataWorks对MaxCompute数仓数据进行查询操作。


实验步骤:

下载CSV文件。

DataWorks上传的默认数据源为CSV文件,实验前需要先下载CSV文件。

https://university-labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%AE%8F%E9%B9%8F--%E5%A4%A7%E6%95%B0%E6%8D%AEACA/gas.csv

在【产品与服务列表】搜索框输入DataWorks,在搜索结果中点击大数据开发治理平台DataWorks,进入DataWorks控制台

image.png

image.png

点击进入工作空间,选择数据开发。

image.png

点击目录栏,选择上传和下载。

image.png

点击上传,选择数据上传按钮。

image.png

选择刚刚下载的文件。

image.png

image.png

DataWorks会自动解析上传的CSV数据,所有字段属性都设置STRING。

image.png

由于DataWorks不支持字段名为中文,需要将字段名称改为英文或数字,修改字段名称,如下图所示:

image.png

上方的表格为上传的CSV文件预览数据,点击【提交】将数据保存到MaxCompute数仓。

image.png

点击提交按钮的效果如下图所示:

image.png

上传完成后会跳转到表管理页面,如下图所示:

image.png

点击数据查询。

image.png

找到【我的MaxCompute表】点击【添加】,在左侧出现【我的MaxCompute表】

只有添加了我的MaxCompute表数据集后才能继续实验。

image.png

如图,在搜索框输入【test_gas】,下方出现刚才创建的数据表

image.png

image.png

在右侧出现对应的SQL查询语句。

image.png

效果如下图所示,自动生成了一个临时文件,并自动生成了刚刚创建的test_gas表的SQL语句

在查询上传的数据之前,先按照以下步骤对数据源进行授权

如下图,首先点击右上角 按钮,然后点击【数据源】下拉框,再点击【安全中心】进行页面跳转

image.png

image.png

运行效果如下图所示:

image.png



体验客户分类的统计操作

查询居民身份的客户数据

在SQL查询编辑页面,删除上一步自动生成的SQL语句,输入以下SQL语句,并如下图所示将项目名称修改过来(注意:SQL语句中的项目名称一定要与当前MaxCompute项目名称一致)

SELECT  col_1 -- name
        ,col_2 -- type
        ,col_3 -- city
        ,col_4 -- area
        ,col_5 -- floor
        ,col_6 -- yajin
FROM    u_vtqgxl1n_1696059289.test_gas
where col_2='居民'
LIMIT   200
;
//相比前一段SQL代码,增加了WHERE 客户身份 = ‘居民’WHERE 代表增加查询条件,这段SQL代码的查询条件为客户身份等于【居民】的数据

运行效果如下图所示,所有的居民客户就出现了

image.png


实验总结:

通过本次实验,学会了如何将本地数据上传到阿里云MaxCompute数仓,同时学习了如何查询,筛选我们上传的数据。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
7天前
|
SQL 分布式计算 DataWorks
活动实践 | DataWorks智能交互式数据开发与分析之旅
本指南介绍了如何使用阿里云平台进行大数据开发与分析。首先,在MaxCompute控制台创建项目并配置计算资源;接着,通过DataWorks控制台创建工作空间和独享资源组,并绑定工作空间。然后,创建个人开发环境,载入案例并新建Notebook实例。在Notebook中,通过SQL和Python Cell进行交互式开发和数据分析,体验智能助手Copilot的功能,如SQL改写、解释、生成注释及智能建表。最后,清理所有创建的资源,包括删除DataWorks资源、MaxCompute项目及网络配置,确保环境整洁。
|
12天前
|
分布式计算 DataWorks 大数据
🚀DataWorks 深度实践与评测:数据治理新时代的全景体验。
在数字化转型中,企业不仅需要技术创新,更需完善的**数据管理和开发治理工具**。DataWorks 作为阿里云推出的一站式智能大数据平台,整合了阿里巴巴15年的大数据经验,提供从数据接入、开发、治理到资产管理的全流程解决方案。它支持湖仓一体架构,内置AI助手提升开发效率,并适用于金融、零售等多行业。本文将深入探讨 DataWorks 的功能、应用场景及性能表现,通过用户画像分析实践展示其强大潜力...
31 8
🚀DataWorks 深度实践与评测:数据治理新时代的全景体验。
|
12天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
39 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
5天前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
39 1
|
26天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
30天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
1月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
29天前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
66 2
|
1月前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
58 1
|
26天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
89 0