概述
使用限制:仅CDH 5.x、CDH 6.x、EMR 3.x、EMR 5.x、CDP、亚信DP、华为FusionInsight类型的计算引擎支持Hadoop集群管理。
功能介绍:
- 支持创建和管理Hadoop集群
- 新建计算源时可引用指定集群,只需填写数据库的名称,无需重复上传配置文件
- 集群信息变更将同步修改关联计算源的配置信息
版本要求:Dataphin V4.4版本及以上。
应用场景
小A是公司数据部门的成员,日常工作中需要为每个使用Dataphin的部门创建Hadoop计算源,以及负责日常计算源的维护。小A一直有以下两个烦恼:
- 每次创建Hadoop计算源时上传的文件和填写的信息大部分都是相同的,且所需要填写的信息较多,创建需要较长的时间。
- 当Hadoop集群的信息变更,例如:Hive数据库的IP地址切换、krb5文件更新等,都需要逐一修改所有的计算源。
如上所示,Hadoop计算源存在着创建复杂、批量管理困难的问题。为了解决这个问题,Dataphin V4.4版本推出了Hadoop集群管理的功能,有了它,让我们向繁琐的Hadoop计算源创建Say ByeBye~
产品功能概览
- Hadoop集群管理:
- 支持新建、编辑、克隆、删除Hadoop集群;
- 支持查看Hadoop集群的历史版本,并可下载配置文件
- 支持设置可引用当前集群的用户,实现集群的安全管控。
- 新建Hadoop计算源:
- 支持“引用指定集群”和“单独配置”两种配置方式:选择“引用指定集群”时,将与所选集群建立关联,后续集群变更信息将同步修改当前计算源;
- 选择“引用指定集群”时,仅需基于集群的JDBC URL填写指定的数据库名称,同时支持基于Hive计算引擎的JDBC URL进行个性化的配置。
-
温馨提示
Dataphin支持“Hadoop集群管理”后,一个租户中可以管理多个集群实例。但是,一个计算任务仅能在一个集群中运行,不同Hadoop集群之间的数据无法进行联接操作。所以,如果某个计算任务中需要访问的数据来源于两个不同的Hadoop集群,那么该任务将会运行失败。