备案控制台

开发者社区大数据与机器学习大数据开发治理DataWorks 正文

DataWorks使用开源CDH集群能否创建SparkSql节点来进行开发？

DataWorks使用开源CDH集群能否创建SparkSql节点来进行开发？

展开

收起

真的很搞笑 2024-04-09 10:25:57 63 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

是的，DataWorks支持使用开源CDH集群创建Spark SQL节点来进行开发。以下是详细的步骤和注意事项：

前提条件

在创建CDH Spark SQL节点之前，需要满足以下条件： 1. 业务流程：在DataWorks的数据开发（DataStudio）中创建业务流程，这是进行开发操作的基础。 2. CDH集群注册：您需要先创建并注册阿里云CDH集群至DataWorks。 3. 资源组配置：购买并配置Serverless资源组，包括绑定工作空间和网络配置。

使用限制

仅支持使用Serverless资源组运行CDH Spark SQL节点任务。
如果需要展示血缘关系，需在CDH集群的Spark参数中单独配置相关参数。

创建CDH Spark SQL节点的步骤

步骤一：进入数据开发页面

登录DataWorks控制台，切换至目标地域。
单击左侧导航栏的数据开发与治理 > 数据开发，选择对应的工作空间后进入数据开发页面。

步骤二：新建CDH Spark SQL节点

在目标业务流程上右键，选择新建节点 > CDH > CDH Spark SQL。
在弹出的“新建节点”对话框中输入节点名称，点击确认完成节点创建。

开发CDH Spark SQL任务

选择CDH集群实例

如果您的工作空间注册了多个CDH集群，可以在节点编辑页面顶部选择合适的集群实例。如果仅注册了一个CDH集群，则默认使用该集群。

编写SQL代码

在CDH Spark SQL节点的代码编辑区域编写SQL代码。例如：

CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_f1 (`id` BIGINT, `name` STRING)
PARTITIONED BY (`ds` STRING);
CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_t2 AS SELECT * FROM test_spark.test_lineage_table_f1;
INSERT INTO test_spark.test_lineage_table_t2 SELECT * FROM test_spark.test_lineage_table_f1;

注意：此示例仅为参考，实际使用时请替换为您自己的数据库环境。

配置调度信息

根据业务需求，在节点编辑页面右侧的“调度配置”中设置调度周期、重跑属性和依赖关系。

调试任务代码

在工具栏中选择已调试运行需要使用的资源组。
为任务代码中的调度参数变量赋值。
保存并运行SQL语句，验证任务执行是否符合预期。

发布任务

点击工具栏中的保存图标。
点击提交图标，输入变更描述，选择是否进行代码评审。
对于标准模式的工作空间，还需将任务发布至生产环境。

查看任务运行情况

任务发布后，您可以在运维中心查看周期任务的调度运行情况。

血缘关系配置（可选）

如果您需要在数据地图中展示CDH Spark SQL节点的表血缘关系，请按照以下步骤配置： 1. 进入管理中心 > 集群管理，找到目标CDH集群。 2. 单击编辑SPARK参数。 3. 添加以下参数： - Spark属性名称：spark.sql.queryExecutionListeners - Spark属性值：com.aliyun.dataworks.meta.lineage.LineageListener 4. 完成编辑后保存配置。

通过以上步骤，您可以成功在DataWorks中使用开源CDH集群创建并开发Spark SQL节点，实现高效的数据处理和分析任务。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

DataWorks 大数据开发治理平台 DataWorks

问答标签：

大数据开发治理平台 DataWorks节点大数据开发治理平台 DataWorks开发大数据开发治理平台 DataWorks集群大数据开发治理平台 DataWorks cdh 大数据开发治理平台 DataWorks cdh节点

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

相关问答

dataworks 任务数据量和集群任务量没有明显变化，希望能了解为什么会突然降低？

91

0

0

DataWorks美国硅谷地域的集群是几点生成第二天实例的？

126

1

0

dataworks上开发pyodps任务，只有独享资源组才能使用第三方包吗？

126

1

0

dataworks-数据开发报集群处于安全模式状态，所有加载作业都被拒绝这个是什么原因呢？

112

0

0

DataWorks中CDH资源上传失败了，麻烦看看，地域：杭州？页面上看不到详细的报错信息？

137

1

0

DataWorks集群id，是通过接口【ListClusters】获取吗，好像还没开通？

80

1

0

Dataworks on EMR服务中，EMR集群的日常管理和维护工作主要由阿里云负责吗？

91

0

0

dataworks申请开发一个同步任务中途暂停，然后再启动断点续传功能怎么办？

83

1

0

DataWorks提交任务到 emr 集群跑的时候，在哪里可以设置内存资源？

215

13

0

云原生大数据计算服务 MaxCompute数据上云方面，DataWorks数据集成是怎样的？

1253

1

0

大数据与机器学习

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

相关文章

数据开发再提速！DataWorks正式接入Qwen3-Coder

阿里云EMR Serverless StarRocks 内容合集

阿里云大数据AI产品月刊-2025年8月

智能体创业新风口：从算法开发到IP运营的范式转移——AI智能体如何重塑创新创业的底层逻辑

【跨国数仓迁移最佳实践7】基于 MaxCompute 多租的大数据平台架构

热门讨论

热门文章

阿里云磁盘大小是多少？

数据来源：com.alibaba.fastjson.JSONException: syntax er

咱们这个API Path什么意思呢，是自定义的接口吗？还是统一规范的？

数据服务报429请求次数过多咋办呀

DataWorks中假如odps 有个string字段需要容纳的内容长度超过8M了，我想接进来？

问一下各位大佬，Dataworks如何能够定义参数获取月份不包含前面的0呢？例如6月份就是6而不是0

添加资源后如何手动提交和发布？

DataWorks表管理创建表报precision and scale is not current

DataWorks最近总报线程池满的提示，请问log要在哪里看啊？

DataWorks set odps.service.mode = off;？

展开全部

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

语雀+通义千问+DataWorks，让AI定期推送每周总结

数据中台的智能进化—阿里巴巴十二年数据平台发展历程

DataWorks售前咨询

基于DataWorks搭建新零售数据中台

DataWorks数据服务介绍及最佳实践 | 《一站式大数据开发治理DataWorks使用宝典》

DataWorks：新一代 Data+AI 数据开发与数据治理平台演进

DataWorks Copilot：让你的数据质量覆盖率一键飞升！

DataWorks百问百答69：有哪些数据集成报错（数据集成报错归类）？

DataWorks常见问题之弹内API 服务不可用Server unreachable如何解决

展开全部

还有其他疑问?