DataWorks使用开源CDH集群能否创建SparkSql节点来进行开发?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
是的,DataWorks支持使用开源CDH集群创建Spark SQL节点来进行开发。以下是详细的步骤和注意事项:
在创建CDH Spark SQL节点之前,需要满足以下条件: 1. 业务流程:在DataWorks的数据开发(DataStudio)中创建业务流程,这是进行开发操作的基础。 2. CDH集群注册:您需要先创建并注册阿里云CDH集群至DataWorks。 3. 资源组配置:购买并配置Serverless资源组,包括绑定工作空间和网络配置。
CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_f1 (`id` BIGINT, `name` STRING)
PARTITIONED BY (`ds` STRING);
CREATE TABLE IF NOT EXISTS test_spark.test_lineage_table_t2 AS SELECT * FROM test_spark.test_lineage_table_f1;
INSERT INTO test_spark.test_lineage_table_t2 SELECT * FROM test_spark.test_lineage_table_f1;
注意:此示例仅为参考,实际使用时请替换为您自己的数据库环境。
如果您需要在数据地图中展示CDH Spark SQL节点的表血缘关系,请按照以下步骤配置: 1. 进入管理中心 > 集群管理,找到目标CDH集群。 2. 单击编辑SPARK参数。 3. 添加以下参数: - Spark属性名称:spark.sql.queryExecutionListeners
- Spark属性值:com.aliyun.dataworks.meta.lineage.LineageListener
4. 完成编辑后保存配置。
通过以上步骤,您可以成功在DataWorks中使用开源CDH集群创建并开发Spark SQL节点,实现高效的数据处理和分析任务。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。