在DataWorks中使用CDH(Cloudera Distribution of Hadoop)相关功能,首先需要在DataWorks中使用CDH(Cloudera Distribution of Hadoop)相关功能,首先需要将CDH集群与DataWorks进行集成。集成完成后,您可以利用DataWorks的多项服务来操作和管理CDH集群。例如,使用DataWorks的数据地图服务可以采集CDH集群中的Hive数据库、表、字段和分区的元数据,进而实现全局数据检索、元数据详情查看、数据预览以及数据血缘和数据类目管理等功能。
同时,您还可以在DataWorks中使用ODPS SQL节点来进行Hive SQL查询,或者使用DataWorks Studio进行Spark计算等。此外,计算引擎信息界面也支持将CDH计算引擎绑定至DataWorks作为工作空间的引擎实例,以便通过DataWorks来执行该引擎类型的计算任务。
更进一步,如果您有数据保护需求,DataWorks的数据抽样采集器功能可以从CDH Hive表中随机抽取部分数据用于数据保护伞的敏感数据识别。如果您已经在数据保护伞中配置了脱敏规则,那么在进行数据地图表详情页面的数据预览时,命中的敏感字段将会被脱敏。
在 DataWorks 中使用 CDH 相关功能,可以参考以下步骤:
要在DataWorks中使用CDH相关功能,可以通过以下步骤操作:
在DataWorks中使用CDH(Cloudera’s Distribution Including Apache Hadoop)相关功能的具体步骤如下:
注意,需要先安装好CDH集群,确保集群运行正常,才能在DataWorks中使用CDH相关功能。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。