基于MaxCompute+DataWorks离线同步某电商用户购买记录实践

简介: 本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。

实验内容:

本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。


实验思路:

1、 进入DataWorks创建业务流程

2、 在MaxCompute通过DDL模式创建数据表

3、 导入数据到MaxCompute


实验目的:

1、 学会如何使用SQL语句创建数据表

2、 学会如何将增量数据同步到MaxCompute


实验步骤:

进入到DataWorks工作空间(具体进入方式见https://developer.aliyun.com/article/1341783?spm=a2c6h.13148508.setting.15.25274f0eQ8JVET)

image.png

Datastudio界面如下图所示

image.png

DataWorks的DataStudio(数据开发)模块主要提供界面化、智能高效的大数据数据开发与测试功能

点击【+新建】,新建业务流程

image.png

image.png

DataWorks同步数据是建立在业务流程上的,只有先有业务流程才能继续进行别的操作。

image.png

展开左侧菜单,鼠标右键,然后点击【新建表】

image.png

输入表名称,新建数据表【datatomc】

image.png

在新建的表中,点击如下图【DDL】

image.png

数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。

在如下DDL模式弹窗中,输入以下 SQL 语句(SQL语句创建的表名必须和填写的表名一致,否则会报错。):

CREATE TABLE IF NOT EXISTS datatomc //CREATE是SQL语句的创建语法,CREATE TABLE IF NOT EXISTS datatomc的意思为如果不存在
//datatomc这个数据表,则创建名称为datatomc的数据表。
InvoiceNo       STRING COMMENT 'InvoiceNo',//InvoiceNo为字段名,STRING为这个字段的属性是字符类型,COMMENT ‘InvoiceNo’代表备注名称为InvoiceNo,Lifecycle 代表生命周期
StockCode       STRING COMMENT 'StockCode',
Description     STRING COMMENT 'Description',
Quantity        BIGINT COMMENT 'Quantity',
InvoiceDate     STRING COMMENT 'InvoiceDate',
UnitPrice       DOUBLE COMMENT 'UnitPrice',
CustomerID      DOUBLE COMMENT 'CustomerID',
Country         STRING COMMENT 'Country'
)
COMMENT 'UCI E-Commerce DATASET '
lifecycle 36000;

image.png

点击【生成表结构】

image.png

创建的表只有提交到生产环境后才可以同步数据。

输入"测试同步数据"

image.png

提交到生产环境

image.png

提交成功之后,在【业务流程-表】中可以看到对应效果,效果如下图所示:

image.png

右键点击表名,选择导入数据

image.png

点击下一步

image.png

点击下一步之后需要上传CSV文件,如图在左侧的【实验手册】找到CSV下载链接,点击复制图标复制CSV文件下载链接。

https://demo-yuze.oss-cn-beijing.aliyuncs.com/e_commerce_clean.csv?spm=a1z3jh.13331991.0.0.9f637871BVbOhT&file=e_commerce_clean.csv

回到DataWorks数据开发界面,点击浏览按钮上传CSV文件

image.png

系统会自动的解析显示前 100 条数据 , 设置【选择分隔符】为|,点击下一步

image.png

点击下一步之后,在【将本地数据导入开发表】弹窗中,选择按名称匹配,然后点击【导入数据】

image.png

导入成功后系统会显示导入的数据条数。

image.png

数据导入成功之后,点击image.png,选择“数据地图“,如下图所示

image.png

在输入框中输入”datatomc“,然后点击【搜索】按钮,如下图所示:

image.png

点击【datatomc】,如下图所示:

image.png

点击【数据预览】看可以看到数据已经导入到MaxCompute,如下图所示:

image.png


实验总结:

本实验使用DataWorks的DDL模式实现数据同步的功能,将某电商用户的购物数据同步到MaxCompute数仓。

具体步骤为先创建数据表,然后将数据导入,这样可以实现每次导入数据不覆盖上一次的导入数据,被称作增量数据同步。

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
4月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
4月前
|
机器学习/深度学习 人工智能 供应链
别再靠拍脑袋进货了!用大数据让电商库存“自己会算”
别再靠拍脑袋进货了!用大数据让电商库存“自己会算”
323 10
|
5月前
|
SQL 缓存 分布式计算
【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
280 8
|
6月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
6月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
7月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
7月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
7月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
246 4
|
7月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
384 3
|
7月前
|
机器学习/深度学习 存储 分布式计算
ODPS驱动电商仓储革命:动态需求预测系统的落地实践
本方案基于ODPS构建“预测-仿真-决策”闭环系统,解决传统仓储中滞销积压与爆款缺货问题。通过动态特征工程、时空融合模型与库存仿真引擎,实现库存周转天数下降42%,缺货率下降65%,年损减少5000万以上,显著提升运营效率与GMV。
728 1

热门文章

最新文章