一、场景
小A在过往创建计算源的时候,遇到了以下两个问题:
1、每次都需要上传重复的集群文件和填写相同的信息,只有少部分信息需要单独填写比如说指定hive库,所需要填写的信息也很多,每次都需要较长的时间;
2、当Hadoop集群的信息变更,例如:Hive数据库实例的IP地址切换、krb5文件更新等,都需要逐一修改所有的计算源;
Dataphin有什么办法可以减少创建计算源时的操作吗?
二、解决方案及功能
Dataphin提供了Hadoop集群管理的功能,支持新建、编辑、克隆、删除Hadoop集群;支持查看Hadoop集群的历史版本,并可下载配置文件
支持设置可引用当前集群的用户,实现集群的安全管控
在新建Hadoop计算源时,支持“引用指定集群”和“单独配置”两种配置方式:选择“引用指定集群”时,将与所选集群建立关联,后续集群变更信息将同步修改当前计算源;选择“单独配置”时,将与线上保持一致
选择“引用指定集群”时,仅需基于集群的JDBC URL填写指定的数据库名称,同时支持基于Hive计算引擎的JDBC URL进行个性化的配置
Dataphin支持“Hadoop集群管理”后,一个租户中可以管理多个集群实例。但是,一个计算任务仅能在一个集群中运行,不同Hadoop集群之间的数据无法进行联接操作。所以,如果某个计算任务中需要访问的数据来源于两个不同的Hadoop集群,那么该任务将会运行失败