引子
很多用户在使用数据集成建立同步任务时,往往都会困惑一个设置,即“资源组设置”。
大家常有的疑问是“资源组是用来做什么的?跟网络之间什么关系?我该选择那种资源组?”
下面本文给您一个简要的介绍。
什么是资源组
资源组是数据集成用来运行数据同步任务的计算资源,可以通俗的理解为“带有CPU、内存和网络的计算机或计算机集群”。同步任务就是运行在上面的“程序”。所以如果机器性能低或者运行的程序过多,都会导致任务执行效率,而有如果机器的网络不通,那么也会出现连接不到数据源的问题。
对比和推荐
数据集成有三种资源组:公共资源组(又称默认资源组)、独享资源组、自定义资源组。它们适用的场景不同,您在做数据同步时可以根据自己实际的需求来选择。具体请参考下表
公共资源组 | 独享资源组 | 自定义资源组* | |
---|---|---|---|
机器资源归属 | DataWorks维护 所有租户竞争使用的共享资源 |
DataWorks维护 自己租户独享使用的计算资源 |
客户自己的IDC机器,客户自己维护 |
DataWorks版本要求 | 所有版本均支持 | 所有版本均支持 | 只有专业版及以上才支持 |
网络 | 支持经典网络 支持公网 支持阿里云内产品 |
支持VPC 支持公网 支持阿里云内产品 |
支持VPC 支持公网 支持阿里云内产品 |
收费方式 | 按任务实例量阶梯计费 | 按机器规格包年包月计费 | DataWorks版本按月使用费 |
支持数据源 | 部分数据源 | 全部数据源 | 全部数据源 |
安全性 | 高 | 高 | 视客户自身机器环境而定 |
任务执行效率* | 低 | 高 | 视客户自身机器环境而定 |
可靠性* | 低 | 高 | 视客户自身机器环境而定 |
适合场景 | 适用于做一些非重要、非紧急的少量、零散任务,或者测试性任务。 | 适合于大量、重要的生产级别任务。 | 自身已有资源利旧,或者同步的数据源全部都在IDC内 |
推荐指数 | ★★ | ★★★★★ | ★ |
任务执行效率:是指任务是否能分到足够的计算资源,能否以最高性能运行。
可靠性:是指任务是否能按时启动,执行时网络资源是否被其他租户所占据,而导致任务不能按时产出结果。
自定义资源组:此处仅指“用于数据集成的自定义资源组”,并不是“用于调度的自定义资源组”。
结论
所以综合来看对于大多数正常需求的用户来说“独享资源组”是最佳选择。
DataWorks百问百答历史记录请点击查看
更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】