开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:4.独享数据集成资源组与 rds 实例 vpc 网络打通指导】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1241
4.独享数据集成资源组与 rds 实例 vpc 网络打通指导
内容介绍:
一、什么是资源组?
二、独享资源组
三、打通数据集成独享资源组和数据源vpc网络操作步骤
四、操作
一、什么是资源组?
在 dataworks 的概念中,资源组可理解为任务分发、执行的服务器。2、1、目前将资源组分为2大类,即调度资源组和数据集成资源组。
1、每类资源组下又分为3种,分别为:
(1)公共资源组:公共调度资源组/公共数据集成资源组。
(2)独享资源组:独享调度资源组/独享数据集成资源组。
(3)自定义资源组:自定义调度/自定义数据集成,由用户自己维护机器。
2、调度资源组和数据集成资源组区别:
(1)调度资源组: 一级资源组,可以向二级资源组提交任务.
(2)数据集成资源组:二级资源组,专用于执行数据集成任务。
3、资源组的区别和使用场景
针对于数据集成任务,整个任务的执行过程会经过两类资源组,调度资源组(调度、分发)和数据集成资源组(实际执行任务同步)
(1)公共资源组:无论是调度资源组还是数据集成资源组,均由整个地域下使用公共资源组的所有用户共用资源,不能一-定保障任务的准时调度执行。
(2)举个栗子:比方说杭州地域公共调度资源组支持的即时任务并发数是N个,所有用户在凌晨1点的时候调度任务共有N+6个( 0-1点无任务执行) ,每个任务执行时间均为1h,那么在1点钟的时候,这N+6个任务同时争抢调度资源组的槽位资源,会导致有6个任务抢不到资源而处于等待gateway槽位的情况。只有等前面那N个任务中有执行完的释放了槽位资源后面的任务才可以得以运行。
(3)数据集成资源组也是同样的道理,但是多了并发数的概念。4c8g的机器可以支持8并发(意思是针对于4c8g规格的机器, 1个数据同步任务配置了并发数为8 ,那么同一时间只能跑这1个任务。如果一个数据同步任务配置了并发数为4 ,那么支持同时跑两个这样的任务)。
理解它们的区别,调度资源组就可以理解为一级资源组它可以向二级资源组提交任务,而是集成资源组就是所说的属于二级资源组,他们是专门用于执行区域集成任务的,这是最基最基本的资源组的概念。
4、等待资源的具体表现形式
如果调度资源组资源不足,那么任务日志中会打印任务并发数,已达上线正在等待云端的 getwait 资源,这是典型的调度资源组不足所会产生的现象。而等数据集成资源组不足的情况下,数据集成的任务实际不会分配到资源来运行,所以数据集成日志中会长时间的打印 wait 状态。
对这样做的适用于需要保证任务准时产出的这种情况,可以通过购买多项资源组,并将其绑定给对应的工作空间。
二、独享资源组
独享资源组适用于需要保证任务准时产出的情况,通过购买独享资源组并绑定相应的工作空间以给特定的工作空间使用,避免了公共资源组争抢资源的情况,只需要您购买合适规格的独享资源组并合理分配任务时间,即可保证任务按时执行、产出。对象资源组的规格要根据需要进行购买,购买的入口是在管控台资源组列表,独享资源组下面的新增独享资源组这里。
三、打通数据集成独享资源组和数据源 vpc 网络操作步骤
1、数据源所在场景和对应的网络连通解决方案可参考一下链接 :
https://help.aliyun.com/document detail/137671.html
2、下面讲一下数据源在vpc环境下和独享数据集成资源组打通网络的步骤:
(1)购买阿里云数据库服务(以rds-mysq|为例)。
(2)购买同地域同可用区(可用区可不一致)的数据集成独享资源组,可用区不做硬性的要求,因为现在资源组都是随机分配的,可以后续通过添加路由进行网络打通。
(3)数据集成独享资源组绑定 dataworks 工作空间。
(4)数据集成独享资源组修改专有网络绑定(添加rds实例的vpc信息。不同可用区需要添加路由)。
(5)将数据集成独享资源组的eip和弹性网卡ip添加到rds实例的白名单中。这是非常重要的一个步骤。只有添加了对应的白名单之后,才可以进进行正常的网络连通。
(6)创建数据集成数据源并正常测试独享数据集成资源组的连通性。
3、文档指导操作链接:
https://developer.aliyun.com/article/766753
这里先到rds管控台这里购买相应的购买相应的实例,这里有创建实力,华东二上海这里选华东二上海的,买sql,这些都是根据您的需要进行购买,可以选择包年包月,也可以选择按量付费。
四、操作
1、购买实例,可以选择包年包月,也可以选择按量付费。
2、买好实例后,可以在rds的基本信息这里,看到相应的地域和可用区,这里看到它是华东二上海可用区e的一个实例,这是它的最基本的信息,内网地址、外网地址、外网地址需要单独申请,有外网地址就可以使用外网地址进行同步,在数据集成的表现中,就是可以使用公共数据集成资源组进行数据同步。以使用公共数据集成资源组进行数据同步。
3、数据库连接,数据库连接的地方它有一个网络类型标识,表示的是实例所在的vpc,鼠标悬停至 vpc 上面,可以看到它有一个 vswitch,是rds实例所在的vbc下的交换机。
4、可以看到rds实例,vpc是jazl结论,交换机是zatv,这是最主要的几个信息。买完rde实例后,到 dataworks 管控台购买独享资源组,创建名字,备注订单号,去相应的地方购买就可以。
5、选华东二上海的独享数据集成资源组,根据需要进行规格购买,像4v8g的独享数据集成资源组,它最多支持离线任务的并发数是8,就是1个任务配了8个并发,那么同一时间只有这一个任务可以运行在独享数据集成资源组上,再多一个并发它就运行不起来,所以地方根据需要根据任务需要和任务配置的并发数进行购买,也可以在配置任务时限制并发数。使用已经买好的一个资源组,可以看到它是一个数据集成资源组,并且当前是在上海地域,现在这种情况肯定是无法连通,无法和对应的rds实例连通,修改归属修改,它归属的工作空间是为了让资源组在对应的工作空间下可以选中并且使用,修改工作空间成功之后,就开始进行网络打通。
6、点击专有网络绑定,点击新增绑定,选择在rds管控台这里看到的,它的vpc是以jazl结尾,需要注意可用区
7、目前新购的多项数据集成资源组,它的可用区是随机分配的,它可能在可用区a也可能在可用区b可用区c等等。可用区和rds数据源不一致,不需要过度担心。这里绑定绑定了vpc之后,看它下面有没有交换机,没有可以创建,因为在rds是管控台这里看到,它的交换机是以zatv结尾的,这里并不能选中,因为他们交换机不是在同一可用区,这并不重要,可以随便选一个,如果没有可以创建。就是安全组也是想默认的就可以,点击确定。
8、由于交换机不一样,所以现在还是无法连通的,需要通过路由规则将同一个vpc下的不同交换机的网络进行联通,目的类型选择 vpc,在目的 switch 实例下选择zatv结尾的交换机,生成路由。
9、生成路由成功之后,需要将交换机、网段或者是如果不想填网段,可以填后面的弹性网卡IP,将交换机网段加入到rds实例的白名单内,在数据安全性中可以添加白名单,可以进行修改,也可以进行新增分组。加一个组内白名单,将刚才那个数据集成独享资源组,专有网络里的交换机网段加到这里。需要绑手机号。添加完白名单之后,网络就是已经连通的了,联通之后就可以到数据dataworks,工作空间内,直接进入数据集成,数据源管理界面,可以新增rds数据源,直接mysql也是可以的。
10、地域选择华东二上海,rds实例可以在rds管控台这边找到,由于涉及到手机认证,所以这边并没有加白名单,这一步是相当重要的一步,不要忘记做。
11、主账号就是购买rds实例的主账号,主账号有ID,比如a和b两个主账号,a账号购买了rds实例,b账号是使用的 dataworks,也可以支持跨账号数据同步的,不用担心,数据库名、用户名和密码都是在rds那边操作的,数据库名比如 mysqldb,用户名密码,就可以进行独享数据集成资源组的连通性测试。如果是使用的公网,如果使用连接站,选择性比较多,可以选择阿里云vpc,jdbcURL 就是用rds的内网地址加上端口号,后面跟一个 database 的n ame,用户名密码,可以进行连通性测试,如果使用公网,就使用rds的公网地址。
12、同样的 jdbcURL 填好之后,填写用户名密码即可,如果使用rds公网,它既可以使用独享数据集成资源组进行测试,也可以使用公共数据集成资源组进行测试。如果用公网,它不走vpc的,对于vpc打通这一块也没有什么限制。
13、重要的操作点就只有两部分,一个是给独享资源组绑定rds对应的专业网络,还有一个就是给对应的数据库实例加白名单,全部的操作步骤就在这里,当可用区不一致时,记得添加对应的可用区交换机的路由即可。