基于MaxCompute+DataWorks离线同步某电商用户购买记录实践

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。

实验内容:

本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。


实验思路:

1、 进入DataWorks创建业务流程

2、 在MaxCompute通过DDL模式创建数据表

3、 导入数据到MaxCompute


实验目的:

1、 学会如何使用SQL语句创建数据表

2、 学会如何将增量数据同步到MaxCompute


实验步骤:

进入到DataWorks工作空间(具体进入方式见https://developer.aliyun.com/article/1341783?spm=a2c6h.13148508.setting.15.25274f0eQ8JVET)

image.png

Datastudio界面如下图所示

image.png

DataWorks的DataStudio(数据开发)模块主要提供界面化、智能高效的大数据数据开发与测试功能

点击【+新建】,新建业务流程

image.png

image.png

DataWorks同步数据是建立在业务流程上的,只有先有业务流程才能继续进行别的操作。

image.png

展开左侧菜单,鼠标右键,然后点击【新建表】

image.png

输入表名称,新建数据表【datatomc】

image.png

在新建的表中,点击如下图【DDL】

image.png

数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。

在如下DDL模式弹窗中,输入以下 SQL 语句(SQL语句创建的表名必须和填写的表名一致,否则会报错。):

CREATE TABLE IF NOT EXISTS datatomc //CREATE是SQL语句的创建语法,CREATE TABLE IF NOT EXISTS datatomc的意思为如果不存在
//datatomc这个数据表,则创建名称为datatomc的数据表。
InvoiceNo       STRING COMMENT 'InvoiceNo',//InvoiceNo为字段名,STRING为这个字段的属性是字符类型,COMMENT ‘InvoiceNo’代表备注名称为InvoiceNo,Lifecycle 代表生命周期
StockCode       STRING COMMENT 'StockCode',
Description     STRING COMMENT 'Description',
Quantity        BIGINT COMMENT 'Quantity',
InvoiceDate     STRING COMMENT 'InvoiceDate',
UnitPrice       DOUBLE COMMENT 'UnitPrice',
CustomerID      DOUBLE COMMENT 'CustomerID',
Country         STRING COMMENT 'Country'
)
COMMENT 'UCI E-Commerce DATASET '
lifecycle 36000;

image.png

点击【生成表结构】

image.png

创建的表只有提交到生产环境后才可以同步数据。

输入"测试同步数据"

image.png

提交到生产环境

image.png

提交成功之后,在【业务流程-表】中可以看到对应效果,效果如下图所示:

image.png

右键点击表名,选择导入数据

image.png

点击下一步

image.png

点击下一步之后需要上传CSV文件,如图在左侧的【实验手册】找到CSV下载链接,点击复制图标复制CSV文件下载链接。

https://demo-yuze.oss-cn-beijing.aliyuncs.com/e_commerce_clean.csv?spm=a1z3jh.13331991.0.0.9f637871BVbOhT&file=e_commerce_clean.csv

回到DataWorks数据开发界面,点击浏览按钮上传CSV文件

image.png

系统会自动的解析显示前 100 条数据 , 设置【选择分隔符】为|,点击下一步

image.png

点击下一步之后,在【将本地数据导入开发表】弹窗中,选择按名称匹配,然后点击【导入数据】

image.png

导入成功后系统会显示导入的数据条数。

image.png

数据导入成功之后,点击image.png,选择“数据地图“,如下图所示

image.png

在输入框中输入”datatomc“,然后点击【搜索】按钮,如下图所示:

image.png

点击【datatomc】,如下图所示:

image.png

点击【数据预览】看可以看到数据已经导入到MaxCompute,如下图所示:

image.png


实验总结:

本实验使用DataWorks的DDL模式实现数据同步的功能,将某电商用户的购物数据同步到MaxCompute数仓。

具体步骤为先创建数据表,然后将数据导入,这样可以实现每次导入数据不覆盖上一次的导入数据,被称作增量数据同步。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
2月前
|
SQL 分布式计算 运维
如何对付一个耗时6h+的ODPS任务:慢节点优化实践
本文描述了大数据处理任务(特别是涉及大量JOIN操作的任务)中遇到的性能瓶颈问题及其优化过程。
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
54 4
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
3月前
|
数据采集 存储 DataWorks
DataWorks操作报错合集之离线同步时目标端关键字冲突报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
8天前
|
边缘计算 人工智能 搜索推荐
大数据与零售业:精准营销的实践
【10月更文挑战第31天】在信息化社会,大数据技术正成为推动零售业革新的重要驱动力。本文探讨了大数据在零售业中的应用,包括客户细分、个性化推荐、动态定价、营销自动化、预测性分析、忠诚度管理和社交网络洞察等方面,通过实际案例展示了大数据如何帮助商家洞悉消费者行为,优化决策,实现精准营销。同时,文章也讨论了大数据面临的挑战和未来展望。
|
23天前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
70 1
|
1月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
65 0
|
1月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
54 0
|
1月前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
37 0
|
3月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决

热门文章

最新文章