DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!
功能推荐:解决业务痛点!
Part1:数据同步解决方案,多场景的一键式数据同步方案
实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。
为了解决上述问题,DataWorks提出了面向业务场景的同步任务配置化方案,支持不同数据源的一键同步功能,例如“一键实时同步至Elasticsearch”、“一键实时同步至Hologres”和“一键实时同步至MaxCompute”功能等,通过此类功能,您只需要进行简单的配置,就可以完成一个复杂业务场景。
以下以使用同一VPC网络环境为例,您需要将独享数据集成资源组绑定的交换机网段添加至数据源的白名单中,保障数据集成资源组可访问数据源。
同步任务配置化方案具有如下优势:
- 全量数据初始化。
- 增量数据实时写入。
- 增量数据和全量数据定时自动合并写入新的全量表分区。
更多DataWorks数据同步解决方案详情可前往帮助中心。
Part2:数据集成资源组,提供数据集成计算资源
数据集成资源组是指数据集成的批数据同步任务运行所在的计算资源。通常资源组以机器的形式展现,即CPU、内存和带宽的大小。
执行数据同步任务的流程为:先从数据来源所在的机器抽取数据至资源组所在的机器,再推送至目标数据源所在的机器
您在进行数据同步时,可以根据实际情况规划使用哪种数据集成资源组,资源组规划的关键点包括连通性和性能两方面。
- 连通性
由于执行数据同步任务流程的要求,需要保证资源组可以访问数据源(来源数据源和目标数据源)所在的网络,且不会因白名单限制等原因不能访问数据源。您需要在保证网络连通的前提下,再使用数据集成,如果网络不通,会导致数据同步任务无法执行。
- 性能
执行同步任务时,会占用资源组所在机器的CPU、内存和网络等资源。如果资源不足,会导致任务无法启动、启动后长时间等待资源,或启动后传输速率较慢,不能及时产出结果等问题。
更多数据同步时,资源组的规划与选择,请前往帮助中心。
场景实践
实践实操:一键数据同步
使用DataWorks的同步解决方案将数据同步至不同目标数据源的操作实践请前往: