文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

云原生大数据计算服务 MaxCompute数据上云方面，数据集成同步解决方案是怎样的？

已解决

云原生大数据计算服务 MaxCompute数据上云方面，数据集成同步解决方案是怎样的？

展开

收起

詹姆斯邦德00 2022-10-17 10:57:17 1112 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

胡嘞嘞

推荐回答

有DataWorks等数据平台开发经验的大数据从业者对业务流程、DAG、调度编排等词汇耳熟能详，这些词汇都描述或提示了大数据开发的一般流程。通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。

这里以DataWorks来举例说明，一般是需要在DataStudio数据开发页面中，创建某个分析需求的业务流程，然后在业务流程中配合使用各类节点（逻辑类、数据同步类、各类计算引擎节点等），最终将这些不同类型的节点，根据业务逻辑关系，编排成有向无环图（DAG）。

如果是简单的A表B表的周期离线同步，那只要在业务流程中添加一个离线同步节点，完整源端、目标端数据源配置及网络打通，基于脚本或向导配置好管道，即可完成。但实际业务场景下，数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成，而是由多个离线同步、实时同步和数据处理等任务组合完成，这就会导致数据同步场景下的配置复杂度非常高。

为了解决上述问题，DataWorks提出了面向业务场景的同步任务配置化方案（我们称之为同步解决方案），支持不同数据源的一键同步功能，例如，“一键实时同步至MaxCompute”、“一键实时同步至Hologres”功能等，通过此类功能，只需要进行简单的配置，就可以完成一个复杂业务场景。而通过传统的手工拖拽节点进行编排的方式，可能需要操作5+甚至10+个节点，配置项达到上百个（涉及周期、参数、依赖关系等各类配置）。

例如：一键实时同步至MaxCompute（独立merge天周期），可能包含了5个数据开发节点和2个资源文件。7个文件可以在一个解决方案向导中轻松配置完成。

以上内容摘自《企业级云原生白皮书项目实战》电子书，点击https://developer.aliyun.com/ebook/download/7774可下载完整版

2022-10-17 18:56:48

赞同展开评论

问答分类：

分布式计算 Cloud Native 大数据 MaxCompute 云原生大数据计算服务 MaxCompute 数据集成 Data Integration

问答标签：

云原生大数据计算服务 MaxCompute数据云原生大数据云原生大数据计算服务 MaxCompute大数据云原生计算云原生大数据计算服务 MaxCompute MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

DataWorks配置了个datax同步任务，但是同步速度很慢几十kb/s，能帮忙看下吗？

479

1

0

在大数据计算MaxCompute中，TASKS_HISTORY 能查到数据集成的任务使用情况嘛？

245

2

0

在大数据计算MaxCompute中，数据集成可以同步es的_id到odps吗？

227

1

0

在尝试访问MaxCompute服务时，提供的AccessKeyId不存在或未找到，怎么解决？

227

0

0

AnalyticDB PostgreSQL云原生版本在跨实例数据共享方面有何计划？

167

1

0

Alluxio数据编排平台与阿里云云原生数据仓库AnalyticDB的合作主要解决了什么问题？

250

1

0

DataWorks同步任务的数据集成资源组换成独享的后一直卡在这了这是什么原因？

199

1

0

DataWorks数据集成页面同步的表可以放在这边业务流程中吗？

267

12

0

DataWorks在使用dataworks的数据集成，配置整库全量同步任务怎么办？

301

0

0

holo 表数据到大数据计算MaxCompute表，可以参考哪个文档？不使用数据集成。

216

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

开发者社区官方技术圈

70179

+ 订阅

阿里云开发者社区官方技术圈，用户产品功能发布、用户反馈收集等。

相关文章

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

阿里云入选Forrester报告七大全场景，引领中国AI原生云安全

IDC发布全球基础模型软件MarketScape，阿里云入选全球领导者

云原生架构实战：美业 SaaS 走向私有化，多租户架构与数据隔离深度实践

电网也开始“会思考”了？大数据如何预测用电、调度能源，还能算清碳排放

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

MaxCompute这个yaml资源在生产环境中无法找到,什么原因？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

删除，和变动的数据，hive分区要怎么处理呢？

大数据计算MaxCompute failed：odps-0110999怎么办？

在大数据计算MaxCompute怎么将字符串日期快速转成timestamp类型？

关于优化AI交互策略的改进建议——基于用户分层实现工具价值与体验平衡

在大数据计算MaxCompute中，有没有for循环类似的函数？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

大数据阿里云产品的简单介绍理解

展开全部

还有其他疑问?