在Dataphin中怎么配置Hadoop数据源的kerberos信息

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,本文将说明如何在Dataphin中配置上述数据源的kerberos信息。

作者:天大


目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,下面说明一下,在Dataphin中怎么配置每种数据类型的kerberos信息。需要注意的是,在配置Hadoop数据源时强烈推荐上传Hadoop相关的配置文件,包括core-site.xml、hdfs-site.xml、hbase-site.xml等。

1. Hive


Dataphin支持三种Hive安全认证协议,Simple,LDAP,Kerberos,通过配置页面的kerberos选项进行切换。

1637030514178-248cc3c5-cc68-439a-8336-6ad734da5b3f.png

Kerberos按钮选择关闭,则为Simple或者是LDAP,如果是LDAP模式,填写下面的用户名和密码即可。

Kerberos按钮选择开启,则为Kerberos模式,需要填写kerberos认证需要的相关信息,如下图所示。

2.png

Hive的kerberos信息分位三个部分:kdc Server,hdfs认证信息,hive认证信息,下面分别进行说明。

  • KDC Server

kdc server配置有两种模式。

简单模式只需要填写kdc server 的服务地址即可,但需要确保Dataphin集群(包括Mesos集群)对kdc server网络通畅,需要访问kdc server的88端口(包括TCP协议和UDP协议)。简单模式下,Dataphin会在做kerberos认证时,根据填写的kdc server自动生成一个临时配置文件。

3.png


配置文件模式,需要上传krb5.conf配置文件,该文件可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端配置,配置文件中会包括krb5.conf文件。推荐使用配置文件模式,因为配置文件会包括较多参数,包括网络协议,重试策略,票据过期时间等。

4.png

  • HDFS认证信息

HDFS kerberos认证信息包括HDFS principal和keytab文件,keytab文件,principal可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端。上传keytab文件前请确认所填principal和keytab文件匹配。可以在hadoop集群或者配置了hadoop client的机器上执行如下命令。

--查看keytab对应的principal
klist -ket hdfs.keytab
--验证principal
kinit -kt hdfs.keytab principal

5.png


  • Hive认证信息

Hive kerberos认证信息如下图所示,包括jdbc url,keytab文件,principal。

6.png

Hive的principal和keytab获取方式和HDFS一致,参考上文的HDFS部分,在此不再赘述。Hive配置需要关注的另外一点是,Dataphin hive的kerberos认证支持Server级别的principal和两段式的用户级别principal,如果是两段式的principal时,jdbc url里的principal参数需要填写Server级别的三段式(hive jdbc client会检查URL中的principal,如果不是三段式的会抛出异常)。

-- hive jdbc url demo
jdbc:hive2://192.168.1.168:10000/v290_auto;principal=hive/cdh-master@DATAPHIN.COM


另外一点是如果hive使用HA高可用模式,URL中的principal需要使用_HOST占位符格式。

-- hive jdbc ha url demo
jdbc:hive2://cdh-master:2181,cdh-worker01:2181,cdh-worker02:2181/v29_ha_test_dev;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk;principal=hive/_HOST@DATAPHIN.COM


2. HDFS


HDFS数据源kerberos配置信息和Hive中的HDFS部分一致,请参考上文,在此不再赘述。

7.png


3. HBase


Hbase kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是HBase master和region Server的principal可能不一致,另外Hbase集群的master可能会切换,需要上传HBase集群的配置文件。

Hbase连接地址参考:

192.168.1.168:2181,192.168.1.169:2181,192.168.1.170:2181

8.png

4. Impala

Impala kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是Impala也同时支持server级别和用户级别(两段式principal)认证,但URL中需要填写Server级别的principal。

-- impala jdbc url demo
jdbc:impala://cdh-master:21050/default;AuthMech=1;KrbServiceName=impala;KrbRealm=DATAPHIN.COM;KrbHostFQDN=cdh-master

9.png


目录
相关文章
|
5月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
127 5
|
29天前
|
数据采集 调度
Dataphin功能Tips系列(74)质量规则调度配置系列(1)-数据更新触发调度
在数据生产中,数据质量直接影响业务准确性。Dataphin 提供“数据更新触发调度”功能,结合强规则校验,可在数据更新时自动检测质量,异常时阻断下游任务,防止脏数据扩散,保障数据准确性与流程稳定。
|
3月前
|
SQL 数据可视化
Dataphin功能Tips系列(66)- 如何配置技术指标关系图
Dataphin通过可视化技术指标关系图,帮助业务人员快速理解指标加工逻辑。
|
3月前
|
API
Dataphin功能Tips系列(58)- 支持OAuth2.0认证方式的API数据源
在数据集成过程中,Dataphin需通过API从外部系统获取数据,而这些系统常采用动态令牌鉴权机制。本文介绍如何在Dataphin中配置支持OAuth 2.0认证的API数据源,实现自动获取和刷新访问令牌,确保安全高效地进行数据请求与集成。
105 8
|
3月前
|
数据可视化
Dataphin功能Tips系列(68)如何配置业务指标关系图
Dataphin推出“业务指标关系图”功能,通过可视化方式直观展示业务指标拆解关系,帮助技术人员与业务人员快速对齐指标口径,提升开发效率。以GMV为例,用户可在系统中新建指标、添加关联指标并配置关系表达式,系统自动生成多层级关系图,便于理解和协作,实现指标开发透明化与一致性。
|
5月前
|
数据采集 安全 大数据
Dataphin 5.1:API数据源及管道组件升级,适配多样化认证的API
为提升API数据交互安全性,Dataphin 5.1推出两种新认证方式:基于OAuth 2.0的动态授权与请求签名认证。前者通过短期Access Token确保安全,后者对关键参数加密签名保障数据完整性。功能支持API数据源OAuth 2.0认证和自定义签名配置,未来还将拓展更灵活的认证方式以满足多样化需求。
177 14
|
5月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
159 8
|
5月前
|
数据安全/隐私保护
Dataphin V4.5:批量导入导出目录及资产信息配置,提升资产盘点效率
数据资产运营常需跨部门协作,使用在线文档梳理信息并快速录入系统至关重要。Dataphin 支持通过 Excel 模板批量导入专题、目录及资产配置,大幅提升效率。场景包括:1) 专题目录初始化配置,快速完成多层级目录定义;2) 批量修改专题目录,适配组织结构调整;3) 批量修改资产信息,实现线上协同编辑与更新。系统还提供异常预检与高亮提示,确保导入准确性,助力高效资产盘点与运营。
154 0
|
7月前
|
关系型数据库 MySQL 数据库
|
7月前
|
SQL 分布式计算 Hadoop

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin
  • 相关实验场景

    更多