基于MaxCompute+DataWorks离线同步某电商用户购买记录实践

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。

实验内容:

本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。


实验思路:

1、 进入DataWorks创建业务流程

2、 在MaxCompute通过DDL模式创建数据表

3、 导入数据到MaxCompute


实验目的:

1、 学会如何使用SQL语句创建数据表

2、 学会如何将增量数据同步到MaxCompute


实验步骤:

进入到DataWorks工作空间(具体进入方式见https://developer.aliyun.com/article/1341783?spm=a2c6h.13148508.setting.15.25274f0eQ8JVET)

image.png

Datastudio界面如下图所示

image.png

DataWorks的DataStudio(数据开发)模块主要提供界面化、智能高效的大数据数据开发与测试功能

点击【+新建】,新建业务流程

image.png

image.png

DataWorks同步数据是建立在业务流程上的,只有先有业务流程才能继续进行别的操作。

image.png

展开左侧菜单,鼠标右键,然后点击【新建表】

image.png

输入表名称,新建数据表【datatomc】

image.png

在新建的表中,点击如下图【DDL】

image.png

数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。

在如下DDL模式弹窗中,输入以下 SQL 语句(SQL语句创建的表名必须和填写的表名一致,否则会报错。):

CREATE TABLE IF NOT EXISTS datatomc //CREATE是SQL语句的创建语法,CREATE TABLE IF NOT EXISTS datatomc的意思为如果不存在
//datatomc这个数据表,则创建名称为datatomc的数据表。
InvoiceNo       STRING COMMENT 'InvoiceNo',//InvoiceNo为字段名,STRING为这个字段的属性是字符类型,COMMENT ‘InvoiceNo’代表备注名称为InvoiceNo,Lifecycle 代表生命周期
StockCode       STRING COMMENT 'StockCode',
Description     STRING COMMENT 'Description',
Quantity        BIGINT COMMENT 'Quantity',
InvoiceDate     STRING COMMENT 'InvoiceDate',
UnitPrice       DOUBLE COMMENT 'UnitPrice',
CustomerID      DOUBLE COMMENT 'CustomerID',
Country         STRING COMMENT 'Country'
)
COMMENT 'UCI E-Commerce DATASET '
lifecycle 36000;

image.png

点击【生成表结构】

image.png

创建的表只有提交到生产环境后才可以同步数据。

输入"测试同步数据"

image.png

提交到生产环境

image.png

提交成功之后,在【业务流程-表】中可以看到对应效果,效果如下图所示:

image.png

右键点击表名,选择导入数据

image.png

点击下一步

image.png

点击下一步之后需要上传CSV文件,如图在左侧的【实验手册】找到CSV下载链接,点击复制图标复制CSV文件下载链接。

https://demo-yuze.oss-cn-beijing.aliyuncs.com/e_commerce_clean.csv?spm=a1z3jh.13331991.0.0.9f637871BVbOhT&file=e_commerce_clean.csv

回到DataWorks数据开发界面,点击浏览按钮上传CSV文件

image.png

系统会自动的解析显示前 100 条数据 , 设置【选择分隔符】为|,点击下一步

image.png

点击下一步之后,在【将本地数据导入开发表】弹窗中,选择按名称匹配,然后点击【导入数据】

image.png

导入成功后系统会显示导入的数据条数。

image.png

数据导入成功之后,点击image.png,选择“数据地图“,如下图所示

image.png

在输入框中输入”datatomc“,然后点击【搜索】按钮,如下图所示:

image.png

点击【datatomc】,如下图所示:

image.png

点击【数据预览】看可以看到数据已经导入到MaxCompute,如下图所示:

image.png


实验总结:

本实验使用DataWorks的DDL模式实现数据同步的功能,将某电商用户的购物数据同步到MaxCompute数仓。

具体步骤为先创建数据表,然后将数据导入,这样可以实现每次导入数据不覆盖上一次的导入数据,被称作增量数据同步。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
7天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
11天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
10天前
|
分布式计算 DataWorks 搜索推荐
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
39 2
|
13天前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
35 1
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
24天前
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
50 2
|
4月前
|
数据采集 存储 DataWorks
DataWorks操作报错合集之离线同步时目标端关键字冲突报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
7天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
55 0
|
2月前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
165 0
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。