DataWorks公共数据集成资源组的资源是什么?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks公共数据集成资源组主要提供以下资源:
Spark环境:用于执行ETL任务、模型训练等。公共数据集成资源组内默认配置了具备开发运行能力的Spark环境。
工具:提供数据采集/传输、数据分析、数据清洗等常见工具。比如:
数据采集:通过MySQL Connector、Oracle Connector、Redis Connector等借口采集数据。
数据传输:通过DataX、Flume等工具同步数据。
数据分析:通过SQL和数据分析框架(如Spark SQL、 HiveSQL等)分析数据。
数据存储:提供结构化数据存储(MySQL、Oracle等)和非结构化数据存储(HDFS、OSS等)。开发人员可将数据同步或分析结果保存到这些存储中。
公共数据源:提供内置的部分公共数据源(如阿里电商数据、生活交通数据等),可直接用于数据分析。
权限:公共数据集成资源组内所有用户的权限都是相同的。
监控:提供任务执行、资源利用率等方面的监控。
安全:提供数据加密存储及用户权限管控等安全能力。
公共数据集成(调试)资源组是DataWorks提供的公共资源组的一种,计费方式为按量计费。所有阿里云DataWorks用户共享使用公共数据集成(调试)资源组资源,使用高峰期可能会出现不同用户间抢占资源的情况,无法保证任务及时调度执行。您可以在公共数据集成(调试)资源组的基础上购买公共资源包,或者直接使用独享数据集成资源组,保障任务的运行。更多公共资源组和公共资源包的介绍可参见公共资源组与公共资源包,独享数据集成资源组的介绍可参见独享数据集成资源组。
https://help.aliyun.com/document_detail/204058.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。