数加使用自定义调度资源进行数据同步

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数加自定义调度资源的使用

数加使用自定义调度资源进行数据同步

数加数据同步的工具

众所周知数加的数据是存储在MaxCompute(原名:ODPS)上,目前数加上所有的数据同步都是基于datax插件,通过datax插件可以在不同的数据源之间同步,常用的数据源有SFTP,Mysql,MaxCompute. datax已经开源了,但是数加使用的版本跟开源的版本略微有点不一样,参考资料: 开源版本 数加版本

什么是自定义调度资源

数加提供的数据同步工具也是基于datax,且他们有很多的机器(在杭州ECS)专门用来运行datax,把这部分机器资源叫做默认调度资源;相对于默认调度资源,运行在我们(用户)的机器上的调度资源叫做自定义调度资源.

为什么需要使用自定义调度资源

目前数加的默认调度资源都是在杭州ECS,而我们的大部分数据回流需要回流到北京机房或者是华北2区(和北京机房有专线通道)的ECS上,如果直接使用默认调度资源会出现datax写数据的时候是跨机房的(从杭州的ECS到北京ECS或北京机房这块目前是没有VPC专线通道的)走公网,网络不那么稳定,从而导致同步速度慢,甚至网络抖动导致任务失败.因此我们需要在北京的ECS上搭建一些调度资源(目前是2台ECS,4核16G)来解决这个问题,这样datax在从MaxCompute导数据到北京机房或者北京ECS的时候就可以通过内网的方式进行数据写入,提高速度和稳定性;聪明的你一定发现了:datax在抽取数据的时候是跨机房的,也就是数据从MaxCompute到datax的时候是跨机房的.是的没错,但是MaxCompute提供了一个VPC连接服务地址,而且还是免费使用,这样就能有效提高整个同步任务的速度和稳定性.

如何使用自定义调度资源进行数据同步

  1. 添加自定义调度资源 (对于大部分同学不需要操作,因此放在后面说明)
  2. 添加内网数据源 :项目管理员操作,和添加其他数据源一样,只是对应的地址换成内网地址,这里不需要测试连接,因为测试连接会失败[原因自己想想],直接保存.
  3. 新建或修改同步任务 : 目前通过可视化界面的任务无法找到对应的表(原因跟第2点的测试一样),所以目前只能转化成脚本模式https://help.aliyun.com/document_detail/49808.html?spm=5176.doc47677.6.568.mnDS29,然后需改ODPS端的`"odpsServer": "http://odps-ext.aliyun-inc.com/api",

        "tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",` 添加这两个是为了datax在连接MaxCompute的时候走vpc通道.如果没有这两个,则添加这里是因为我们要把数据导到北京因此使用这两个地址,如果是其他地方,请参考MaxCompute的[连接服务地址](https://help.aliyun.com/document_detail/34951.html?spm=5176.doc27989.2.7.DxwUOY "连接服务地址") 
  4. 修改任务的资源调度: 由于数加数据同步默认使用默认调度资源,因此我们需要修改调度资源,如下图image选择对应的自定义资源, 修改后需要重新补数据或测试运行才能使用自定义调度资源,修改之前生成的实例还是使用默认调度资源,这个设计不知道数加的产品是出于什么考虑,我是感觉有点怪怪的.

如何添加自定义调度资源

请自行查看数加的官方文档新增自定义调度资源

相关文章
|
8月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之dataworks数据同步时无法显示独享资源组如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
DataWorks 数据库
带你读《全链路数据治理-全域数据集成》之17:3. 独享数据集成资源组介绍
带你读《全链路数据治理-全域数据集成》之17:3. 独享数据集成资源组介绍
133 0
|
DataWorks 调度
DataWorks百问百答01:数据同步该用什么资源组?
很多用户在使用数据集成建立同步任务时,往往都会困惑一个设置,即“资源组设置”。大家常有的疑问是“资源组是用来做什么的?跟网络之间什么关系?我该选择那种资源组?”下面本文给您一个简要的介绍。
963 0
|
5月前
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之如何处理数据同步时(mysql->hive)报:Render instance failed
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
监控 关系型数据库 MySQL
深入了解MySQL主从复制:构建高效稳定的数据同步架构
深入了解MySQL主从复制:构建高效稳定的数据同步架构
150 1
|
4月前
|
canal 消息中间件 关系型数据库
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
875 4
|
5月前
|
关系型数据库 MySQL 数据库
【MySQL】手把手教你MySQL数据同步
【MySQL】手把手教你MySQL数据同步
|
3月前
|
消息中间件 NoSQL 关系型数据库
一文彻底搞定Redis与MySQL的数据同步
【10月更文挑战第21天】本文介绍了 Redis 与 MySQL 数据同步的原因及实现方式。同步的主要目的是为了优化性能和保持数据一致性。实现方式包括基于数据库触发器、应用层双写和使用消息队列。每种方式都有其优缺点,需根据具体场景选择合适的方法。此外,文章还强调了数据同步时需要注意的数据一致性、性能优化和异常处理等问题。
817 0
|
5月前
|
SQL 关系型数据库 MySQL
“震撼揭秘!Flink CDC如何轻松实现SQL Server到MySQL的实时数据同步?一招在手,数据无忧!”
【8月更文挑战第7天】随着大数据技术的发展,实时数据同步变得至关重要。Apache Flink作为高性能流处理框架,在实时数据处理领域扮演着核心角色。Flink CDC(Change Data Capture)组件的加入,使得数据同步更为高效。本文介绍如何使用Flink CDC实现从SQL Server到MySQL的实时数据同步,并提供示例代码。首先确保SQL Server启用了CDC功能,接着在Flink环境中引入相关连接器。通过定义源表与目标表,并执行简单的`INSERT INTO SELECT`语句,即可完成数据同步。
495 1
|
5月前
|
SQL canal 关系型数据库
(二十四)全解MySQL之主从篇:死磕主从复制中数据同步原理与优化
兜兜转转,经过《全解MySQL专栏》前面二十多篇的内容讲解后,基本对MySQL单机模式下的各方面进阶知识做了详细阐述,同时在前面的《分库分表概念篇》、《分库分表隐患篇》两章中也首次提到了数据库的一些高可用方案,但前两章大多属于方法论,并未涵盖真正的实操过程。接下来的内容,会以目前这章作为分割点,开启MySQL高可用方案的落地实践分享的新章程!
2287 1

热门文章

最新文章