在Dataphin中怎么配置Hadoop数据源的kerberos信息

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,本文将说明如何在Dataphin中配置上述数据源的kerberos信息。

作者:天大


目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,下面说明一下,在Dataphin中怎么配置每种数据类型的kerberos信息。需要注意的是,在配置Hadoop数据源时强烈推荐上传Hadoop相关的配置文件,包括core-site.xml、hdfs-site.xml、hbase-site.xml等。

1. Hive


Dataphin支持三种Hive安全认证协议,Simple,LDAP,Kerberos,通过配置页面的kerberos选项进行切换。

1637030514178-248cc3c5-cc68-439a-8336-6ad734da5b3f.png

Kerberos按钮选择关闭,则为Simple或者是LDAP,如果是LDAP模式,填写下面的用户名和密码即可。

Kerberos按钮选择开启,则为Kerberos模式,需要填写kerberos认证需要的相关信息,如下图所示。

2.png

Hive的kerberos信息分位三个部分:kdc Server,hdfs认证信息,hive认证信息,下面分别进行说明。

  • KDC Server

kdc server配置有两种模式。

简单模式只需要填写kdc server 的服务地址即可,但需要确保Dataphin集群(包括Mesos集群)对kdc server网络通畅,需要访问kdc server的88端口(包括TCP协议和UDP协议)。简单模式下,Dataphin会在做kerberos认证时,根据填写的kdc server自动生成一个临时配置文件。

3.png


配置文件模式,需要上传krb5.conf配置文件,该文件可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端配置,配置文件中会包括krb5.conf文件。推荐使用配置文件模式,因为配置文件会包括较多参数,包括网络协议,重试策略,票据过期时间等。

4.png

  • HDFS认证信息

HDFS kerberos认证信息包括HDFS principal和keytab文件,keytab文件,principal可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端。上传keytab文件前请确认所填principal和keytab文件匹配。可以在hadoop集群或者配置了hadoop client的机器上执行如下命令。

--查看keytab对应的principal
klist -ket hdfs.keytab
--验证principal
kinit -kt hdfs.keytab principal

5.png


  • Hive认证信息

Hive kerberos认证信息如下图所示,包括jdbc url,keytab文件,principal。

6.png

Hive的principal和keytab获取方式和HDFS一致,参考上文的HDFS部分,在此不再赘述。Hive配置需要关注的另外一点是,Dataphin hive的kerberos认证支持Server级别的principal和两段式的用户级别principal,如果是两段式的principal时,jdbc url里的principal参数需要填写Server级别的三段式(hive jdbc client会检查URL中的principal,如果不是三段式的会抛出异常)。

-- hive jdbc url demo
jdbc:hive2://192.168.1.168:10000/v290_auto;principal=hive/cdh-master@DATAPHIN.COM


另外一点是如果hive使用HA高可用模式,URL中的principal需要使用_HOST占位符格式。

-- hive jdbc ha url demo
jdbc:hive2://cdh-master:2181,cdh-worker01:2181,cdh-worker02:2181/v29_ha_test_dev;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk;principal=hive/_HOST@DATAPHIN.COM


2. HDFS


HDFS数据源kerberos配置信息和Hive中的HDFS部分一致,请参考上文,在此不再赘述。

7.png


3. HBase


Hbase kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是HBase master和region Server的principal可能不一致,另外Hbase集群的master可能会切换,需要上传HBase集群的配置文件。

Hbase连接地址参考:

192.168.1.168:2181,192.168.1.169:2181,192.168.1.170:2181

8.png

4. Impala

Impala kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是Impala也同时支持server级别和用户级别(两段式principal)认证,但URL中需要填写Server级别的principal。

-- impala jdbc url demo
jdbc:impala://cdh-master:21050/default;AuthMech=1;KrbServiceName=impala;KrbRealm=DATAPHIN.COM;KrbHostFQDN=cdh-master

9.png


相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
29天前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
42 3
Hadoop集群配置https实战案例
|
2月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
114 1
|
2月前
|
XML 分布式计算 监控
详细指南:在Hadoop中配置Oozie作业
【8月更文挑战第31天】
33 0
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop软件与配置问题
【7月更文挑战第14天】
38 3
|
3月前
|
分布式计算 Hadoop
Hadoop配置作业使用Combiner
【7月更文挑战第7天】
28 4
|
3月前
|
分布式计算 Hadoop 测试技术
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
47 2
|
3月前
|
数据采集 分布式计算 监控
Hadoop数据倾斜配置调整
【7月更文挑战第2天】
41 1

相关产品

  • 智能数据建设与治理 Dataphin
  • 下一篇
    无影云桌面