基于MaxCompute+DataWorks离线同步某电商用户购买记录实践

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。

实验内容:

本次实验使用DataWorks的DDL模式新建数据表,然后将保存在本地的某用户购买记录同步到MaxCompute数仓中,本实验采用的是增量数据同步,每次同步过来的数据会直接存储在MaxCompute中,不会覆盖之前的数据。


实验思路:

1、 进入DataWorks创建业务流程

2、 在MaxCompute通过DDL模式创建数据表

3、 导入数据到MaxCompute


实验目的:

1、 学会如何使用SQL语句创建数据表

2、 学会如何将增量数据同步到MaxCompute


实验步骤:

进入到DataWorks工作空间(具体进入方式见https://developer.aliyun.com/article/1341783?spm=a2c6h.13148508.setting.15.25274f0eQ8JVET)

image.png

Datastudio界面如下图所示

image.png

DataWorks的DataStudio(数据开发)模块主要提供界面化、智能高效的大数据数据开发与测试功能

点击【+新建】,新建业务流程

image.png

image.png

DataWorks同步数据是建立在业务流程上的,只有先有业务流程才能继续进行别的操作。

image.png

展开左侧菜单,鼠标右键,然后点击【新建表】

image.png

输入表名称,新建数据表【datatomc】

image.png

在新建的表中,点击如下图【DDL】

image.png

数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。

在如下DDL模式弹窗中,输入以下 SQL 语句(SQL语句创建的表名必须和填写的表名一致,否则会报错。):

CREATE TABLE IF NOT EXISTS datatomc //CREATE是SQL语句的创建语法,CREATE TABLE IF NOT EXISTS datatomc的意思为如果不存在
//datatomc这个数据表,则创建名称为datatomc的数据表。
InvoiceNo       STRING COMMENT 'InvoiceNo',//InvoiceNo为字段名,STRING为这个字段的属性是字符类型,COMMENT ‘InvoiceNo’代表备注名称为InvoiceNo,Lifecycle 代表生命周期
StockCode       STRING COMMENT 'StockCode',
Description     STRING COMMENT 'Description',
Quantity        BIGINT COMMENT 'Quantity',
InvoiceDate     STRING COMMENT 'InvoiceDate',
UnitPrice       DOUBLE COMMENT 'UnitPrice',
CustomerID      DOUBLE COMMENT 'CustomerID',
Country         STRING COMMENT 'Country'
)
COMMENT 'UCI E-Commerce DATASET '
lifecycle 36000;
AI 代码解读

image.png

点击【生成表结构】

image.png

创建的表只有提交到生产环境后才可以同步数据。

输入"测试同步数据"

image.png

提交到生产环境

image.png

提交成功之后,在【业务流程-表】中可以看到对应效果,效果如下图所示:

image.png

右键点击表名,选择导入数据

image.png

点击下一步

image.png

点击下一步之后需要上传CSV文件,如图在左侧的【实验手册】找到CSV下载链接,点击复制图标复制CSV文件下载链接。

https://demo-yuze.oss-cn-beijing.aliyuncs.com/e_commerce_clean.csv?spm=a1z3jh.13331991.0.0.9f637871BVbOhT&file=e_commerce_clean.csv
AI 代码解读

回到DataWorks数据开发界面,点击浏览按钮上传CSV文件

image.png

系统会自动的解析显示前 100 条数据 , 设置【选择分隔符】为|,点击下一步

image.png

点击下一步之后,在【将本地数据导入开发表】弹窗中,选择按名称匹配,然后点击【导入数据】

image.png

导入成功后系统会显示导入的数据条数。

image.png

数据导入成功之后,点击image.png,选择“数据地图“,如下图所示

image.png

在输入框中输入”datatomc“,然后点击【搜索】按钮,如下图所示:

image.png

点击【datatomc】,如下图所示:

image.png

点击【数据预览】看可以看到数据已经导入到MaxCompute,如下图所示:

image.png


实验总结:

本实验使用DataWorks的DDL模式实现数据同步的功能,将某电商用户的购物数据同步到MaxCompute数仓。

具体步骤为先创建数据表,然后将数据导入,这样可以实现每次导入数据不覆盖上一次的导入数据,被称作增量数据同步。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
打赏
0
2
2
0
3144
分享
相关文章
活动实践 | DataWorks智能交互式数据开发与分析之旅
本指南介绍了如何使用阿里云平台进行大数据开发与分析。首先,在MaxCompute控制台创建项目并配置计算资源;接着,通过DataWorks控制台创建工作空间和独享资源组,并绑定工作空间。然后,创建个人开发环境,载入案例并新建Notebook实例。在Notebook中,通过SQL和Python Cell进行交互式开发和数据分析,体验智能助手Copilot的功能,如SQL改写、解释、生成注释及智能建表。最后,清理所有创建的资源,包括删除DataWorks资源、MaxCompute项目及网络配置,确保环境整洁。
🚀DataWorks 深度实践与评测:数据治理新时代的全景体验。
在数字化转型中,企业不仅需要技术创新,更需完善的**数据管理和开发治理工具**。DataWorks 作为阿里云推出的一站式智能大数据平台,整合了阿里巴巴15年的大数据经验,提供从数据接入、开发、治理到资产管理的全流程解决方案。它支持湖仓一体架构,内置AI助手提升开发效率,并适用于金融、零售等多行业。本文将深入探讨 DataWorks 的功能、应用场景及性能表现,通过用户画像分析实践展示其强大潜力...
184 8
🚀DataWorks 深度实践与评测:数据治理新时代的全景体验。
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
93 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
DataWorks数据集成同步至Hologres能力介绍
本次分享的主题是DataWorks数据集成同步至Hologres能力,由计算平台的产品经理喆别(王喆)分享。介绍DataWorks将数据集成并同步到Hologres的能力。DataWorks数据集成是一款低成本、高效率、全场景覆盖的产品。当我们面向数据库级别,向Hologres进行同步时,能够实现简单且快速的同步设置。目前仅需配置一个任务,就能迅速地将一个数据库实例内的所有库表一并传输到Hologres中。
57 12
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
113 1
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
Cisco WebEx 早期数据平台采用了多系统架构(包括 Trino、Pinot、Iceberg 、 Kyuubi 等),面临架构复杂、数据冗余存储、运维困难、资源利用率低、数据时效性差等问题。因此,引入 Apache Doris 替换了 Trino、Pinot 、 Iceberg 及 Kyuubi 技术栈,依赖于 Doris 的实时数据湖能力及高性能 OLAP 分析能力,统一数据湖仓及查询分析引擎,显著提升了查询性能及系统稳定性,同时实现资源成本降低 30%。
Cisco WebEx 数据平台:统一 Trino、Pinot、Iceberg 及 Kyuubi,探索 Apache Doris 在 Cisco 的改造实践
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
聊聊DataWorks这个大数据开发治理平台
聊聊DataWorks这个大数据开发治理平台
123 2

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等