DataWorks使用开源CDH集群能否创建SparkSql节点来进行开发?

DataWorks使用开源CDH集群能否创建SparkSql节点来进行开发?

展开
收起
真的很搞笑 2024-04-09 10:25:57 33 分享 版权
阿里云 AI 助理回答

是的,DataWorks支持使用开源CDH集群创建Spark SQL节点来进行开发。以下是详细的步骤和注意事项:


前提条件

在创建CDH Spark SQL节点之前,需要满足以下条件: 1. 业务流程:在DataWorks的数据开发(DataStudio)中创建业务流程,这是进行开发操作的基础。 2. CDH集群注册:您需要先创建并注册阿里云CDH集群至DataWorks。 3. 资源组配置:购买并配置Serverless资源组,包括绑定工作空间和网络配置。


使用限制

  • 仅支持使用Serverless资源组运行CDH Spark SQL节点任务
  • 如果需要展示血缘关系,需在CDH集群的Spark参数中单独配置相关参数。

创建CDH Spark SQL节点的步骤

步骤一:进入数据开发页面

  1. 登录DataWorks控制台,切换至目标地域。
  2. 单击左侧导航栏的数据开发与治理 > 数据开发,选择对应的工作空间后进入数据开发页面。

步骤二:新建CDH Spark SQL节点

  1. 在目标业务流程上右键,选择新建节点 > CDH > CDH Spark SQL
  2. 在弹出的“新建节点”对话框中输入节点名称,点击确认完成节点创建。

开发CDH Spark SQL任务

选择CDH集群实例

  • 如果您的工作空间注册了多个CDH集群,可以在节点编辑页面顶部选择合适的集群实例。如果仅注册了一个CDH集群,则默认使用该集群。

编写SQL代码

  • 在CDH Spark SQL节点的代码编辑区域编写SQL代码。例如:
    CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_f1 (`id` BIGINT, `name` STRING)
    PARTITIONED BY (`ds` STRING);
    CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_t2 AS SELECT * FROM test_spark.test_lineage_table_f1;
    INSERT INTO test_spark.test_lineage_table_t2 SELECT * FROM test_spark.test_lineage_table_f1;
    

    注意:此示例仅为参考,实际使用时请替换为您自己的数据库环境。

配置调度信息

  • 根据业务需求,在节点编辑页面右侧的“调度配置”中设置调度周期、重跑属性和依赖关系。

调试任务代码

  1. 在工具栏中选择已调试运行需要使用的资源组。
  2. 为任务代码中的调度参数变量赋值。
  3. 保存并运行SQL语句,验证任务执行是否符合预期。

发布任务

  1. 点击工具栏中的保存图标。
  2. 点击提交图标,输入变更描述,选择是否进行代码评审。
  3. 对于标准模式的工作空间,还需将任务发布至生产环境。

查看任务运行情况

  • 任务发布后,您可以在运维中心查看周期任务的调度运行情况。

血缘关系配置(可选)

如果您需要在数据地图中展示CDH Spark SQL节点的表血缘关系,请按照以下步骤配置: 1. 进入管理中心 > 集群管理,找到目标CDH集群。 2. 单击编辑SPARK参数。 3. 添加以下参数: - Spark属性名称spark.sql.queryExecutionListeners - Spark属性值com.aliyun.dataworks.meta.lineage.LineageListener 4. 完成编辑后保存配置。


通过以上步骤,您可以成功在DataWorks中使用开源CDH集群创建并开发Spark SQL节点,实现高效的数据处理和分析任务。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理