在Dataphin中怎么配置Hadoop数据源的kerberos信息

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,本文将说明如何在Dataphin中配置上述数据源的kerberos信息。

作者:天大


目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,下面说明一下,在Dataphin中怎么配置每种数据类型的kerberos信息。需要注意的是,在配置Hadoop数据源时强烈推荐上传Hadoop相关的配置文件,包括core-site.xml、hdfs-site.xml、hbase-site.xml等。

1. Hive


Dataphin支持三种Hive安全认证协议,Simple,LDAP,Kerberos,通过配置页面的kerberos选项进行切换。

1637030514178-248cc3c5-cc68-439a-8336-6ad734da5b3f.png

Kerberos按钮选择关闭,则为Simple或者是LDAP,如果是LDAP模式,填写下面的用户名和密码即可。

Kerberos按钮选择开启,则为Kerberos模式,需要填写kerberos认证需要的相关信息,如下图所示。

2.png

Hive的kerberos信息分位三个部分:kdc Server,hdfs认证信息,hive认证信息,下面分别进行说明。

  • KDC Server

kdc server配置有两种模式。

简单模式只需要填写kdc server 的服务地址即可,但需要确保Dataphin集群(包括Mesos集群)对kdc server网络通畅,需要访问kdc server的88端口(包括TCP协议和UDP协议)。简单模式下,Dataphin会在做kerberos认证时,根据填写的kdc server自动生成一个临时配置文件。

3.png


配置文件模式,需要上传krb5.conf配置文件,该文件可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端配置,配置文件中会包括krb5.conf文件。推荐使用配置文件模式,因为配置文件会包括较多参数,包括网络协议,重试策略,票据过期时间等。

4.png

  • HDFS认证信息

HDFS kerberos认证信息包括HDFS principal和keytab文件,keytab文件,principal可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端。上传keytab文件前请确认所填principal和keytab文件匹配。可以在hadoop集群或者配置了hadoop client的机器上执行如下命令。

--查看keytab对应的principal
klist -ket hdfs.keytab
--验证principal
kinit -kt hdfs.keytab principal

5.png


  • Hive认证信息

Hive kerberos认证信息如下图所示,包括jdbc url,keytab文件,principal。

6.png

Hive的principal和keytab获取方式和HDFS一致,参考上文的HDFS部分,在此不再赘述。Hive配置需要关注的另外一点是,Dataphin hive的kerberos认证支持Server级别的principal和两段式的用户级别principal,如果是两段式的principal时,jdbc url里的principal参数需要填写Server级别的三段式(hive jdbc client会检查URL中的principal,如果不是三段式的会抛出异常)。

-- hive jdbc url demo
jdbc:hive2://192.168.1.168:10000/v290_auto;principal=hive/cdh-master@DATAPHIN.COM


另外一点是如果hive使用HA高可用模式,URL中的principal需要使用_HOST占位符格式。

-- hive jdbc ha url demo
jdbc:hive2://cdh-master:2181,cdh-worker01:2181,cdh-worker02:2181/v29_ha_test_dev;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk;principal=hive/_HOST@DATAPHIN.COM


2. HDFS


HDFS数据源kerberos配置信息和Hive中的HDFS部分一致,请参考上文,在此不再赘述。

7.png


3. HBase


Hbase kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是HBase master和region Server的principal可能不一致,另外Hbase集群的master可能会切换,需要上传HBase集群的配置文件。

Hbase连接地址参考:

192.168.1.168:2181,192.168.1.169:2181,192.168.1.170:2181

8.png

4. Impala

Impala kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是Impala也同时支持server级别和用户级别(两段式principal)认证,但URL中需要填写Server级别的principal。

-- impala jdbc url demo
jdbc:impala://cdh-master:21050/default;AuthMech=1;KrbServiceName=impala;KrbRealm=DATAPHIN.COM;KrbHostFQDN=cdh-master

9.png


相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
运维 数据处理 调度
Dataphin功能Tips系列(30)-限流配置
某大型电商平台在每天的凌晨时段需要进行大量的数据处理任务,比如订单处理、库存同步、用户行为分析等。此外,平台还需要定期进行历史数据的补数据工作,以确保数据完整性和一致性。在进行补数据时,如果需要补的历史时间周期比较长,这些批处理任务会消耗大量的计算资源,导致批处理任务(如订单处理、库存同步)响应变慢甚至超时失败,这是我们应该怎么保障每天的批处理任务(订单处理、库存同步)的按时产出?
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
78 4
|
2月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
175 5
|
2月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
49 3
|
2月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
132 4
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
90 2
|
2月前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
63 2
|
2月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
51 1
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
2月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
51 0

相关产品

  • 智能数据建设与治理 Dataphin