5.2.3 数据上云
5.2.3.1 DataWorks数据集成
DataWorks数据集成(即数据同步),是一个稳定高效、弹性伸缩的数据同步平台,广泛支持各类异构数据存储系统,提供离线全量和实时增量的数据同步、集成、交换服务。
5.2.3.1.1 数据集成同步解决方案
有DataWorks等数据平台开发经验的大数据从业者对业务流程、DAG、调度编排等词汇耳熟能详,这些词汇都描述或提示了大数据开发的一般流程。通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。
这里以DataWorks来举例说明,一般是需要在DataStudio数据开发页面中,创建某个分析需求的业务流程,然后在业务流程中配合使用各类节点(逻辑类、数据同步类、各类计算引擎节点等),最终将这些不同类型的节点,根据业务逻辑关系,编排成有向无环图(DAG)。
如果是简单的A表�B表的周期离线同步,那只要在业务流程中添加一个离线同步节点,完整源端、目标端数据源配置及网络打通,基于脚本或向导配置好管道,即可完成。但实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。
为了解决上述问题,DataWorks提出了面向业务场景的同步任务配置化方案(我们称之为同步解决方案),支持不同数据源的一键同步功能,例如,“一键实时同步至MaxCompute”、“一键实时同步至Hologres”功能等,通过此类功能,只需要进行简单的配置,就可以完成一个复杂业务场景。而通过传统的手工拖拽节点进行编排的方式,可能需要操作5+甚至10+个节点,配置项达到上百个(涉及周期、参数、依赖关系等各类配置)。
例如:一键实时同步至MaxCompute(独立merge天周期),可能包含了5个数据开发节点和2个资源文件。7个文件可以在一个解决方案向导中轻松配置完成。
《企业级云原生白皮书项目实战》——第五章 大数据——5.2 云原生大数据计算服务 MaxCompute——5.2.3 数据上云(2) https://developer.aliyun.com/article/1228552?groupCode=supportservice