在Dataphin中怎么配置Hadoop数据源的kerberos信息

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,本文将说明如何在Dataphin中配置上述数据源的kerberos信息。

作者:天大


目前Dataphin数据集成或数据服务支持Hadoop生态四种数据源类型:Hive,HDFS,Hbase,Impala。Kerberos认证是Hadoop生态使用较多一种安全认证协议,下面说明一下,在Dataphin中怎么配置每种数据类型的kerberos信息。需要注意的是,在配置Hadoop数据源时强烈推荐上传Hadoop相关的配置文件,包括core-site.xml、hdfs-site.xml、hbase-site.xml等。

1. Hive


Dataphin支持三种Hive安全认证协议,Simple,LDAP,Kerberos,通过配置页面的kerberos选项进行切换。

1637030514178-248cc3c5-cc68-439a-8336-6ad734da5b3f.png

Kerberos按钮选择关闭,则为Simple或者是LDAP,如果是LDAP模式,填写下面的用户名和密码即可。

Kerberos按钮选择开启,则为Kerberos模式,需要填写kerberos认证需要的相关信息,如下图所示。

2.png

Hive的kerberos信息分位三个部分:kdc Server,hdfs认证信息,hive认证信息,下面分别进行说明。

  • KDC Server

kdc server配置有两种模式。

简单模式只需要填写kdc server 的服务地址即可,但需要确保Dataphin集群(包括Mesos集群)对kdc server网络通畅,需要访问kdc server的88端口(包括TCP协议和UDP协议)。简单模式下,Dataphin会在做kerberos认证时,根据填写的kdc server自动生成一个临时配置文件。

3.png


配置文件模式,需要上传krb5.conf配置文件,该文件可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端配置,配置文件中会包括krb5.conf文件。推荐使用配置文件模式,因为配置文件会包括较多参数,包括网络协议,重试策略,票据过期时间等。

4.png

  • HDFS认证信息

HDFS kerberos认证信息包括HDFS principal和keytab文件,keytab文件,principal可以找Hadoop运维同学索取,或者通过(CDH,CDP,FusionInsight)控制台下载客户端。上传keytab文件前请确认所填principal和keytab文件匹配。可以在hadoop集群或者配置了hadoop client的机器上执行如下命令。

--查看keytab对应的principal
klist -ket hdfs.keytab
--验证principal
kinit -kt hdfs.keytab principal

5.png


  • Hive认证信息

Hive kerberos认证信息如下图所示,包括jdbc url,keytab文件,principal。

6.png

Hive的principal和keytab获取方式和HDFS一致,参考上文的HDFS部分,在此不再赘述。Hive配置需要关注的另外一点是,Dataphin hive的kerberos认证支持Server级别的principal和两段式的用户级别principal,如果是两段式的principal时,jdbc url里的principal参数需要填写Server级别的三段式(hive jdbc client会检查URL中的principal,如果不是三段式的会抛出异常)。

-- hive jdbc url demo
jdbc:hive2://192.168.1.168:10000/v290_auto;principal=hive/cdh-master@DATAPHIN.COM


另外一点是如果hive使用HA高可用模式,URL中的principal需要使用_HOST占位符格式。

-- hive jdbc ha url demo
jdbc:hive2://cdh-master:2181,cdh-worker01:2181,cdh-worker02:2181/v29_ha_test_dev;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk;principal=hive/_HOST@DATAPHIN.COM


2. HDFS


HDFS数据源kerberos配置信息和Hive中的HDFS部分一致,请参考上文,在此不再赘述。

7.png


3. HBase


Hbase kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是HBase master和region Server的principal可能不一致,另外Hbase集群的master可能会切换,需要上传HBase集群的配置文件。

Hbase连接地址参考:

192.168.1.168:2181,192.168.1.169:2181,192.168.1.170:2181

8.png

4. Impala

Impala kerberos配置信息如下图所示,其中kdc server相关请参考Hive中kdc Server相关配置说明。

keytab文件和principal获取请参考Hive中相关说明,这两部分基本和Hive一致。需要注意的是Impala也同时支持server级别和用户级别(两段式principal)认证,但URL中需要填写Server级别的principal。

-- impala jdbc url demo
jdbc:impala://cdh-master:21050/default;AuthMech=1;KrbServiceName=impala;KrbRealm=DATAPHIN.COM;KrbHostFQDN=cdh-master

9.png


相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
63 0
|
7月前
|
分布式计算 资源调度 Hadoop
|
25天前
|
分布式计算 大数据 数据处理
Dataphin常见问题之获取当天日期不一致如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
1月前
|
SQL 分布式计算 数据可视化
Dataphin常见问题之看不到上个版本的血缘如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop 配置
core-site.xml 是 Hadoop 核心全局配置文件【2月更文挑战第20天】
28 1
|
2月前
|
应用服务中间件 网络安全 网络虚拟化
Dataphin公共云多租户数据源上云网络方案
通过Dataphin公共云多租户的方式,可以实现零部署成本、零运维成本构建智能大数据研发与治理平台。Dataphin部署在阿里云上,已有的数据源部署在本地机房,因此数据上云第一步,首先要打通网络。本文将介绍本地IDC机房的数据源网络打通的不同方案。
|
3月前
|
分布式计算 Hadoop Java
linux上面hadoop配置集群
linux上面hadoop配置集群
46 0
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop【部署 02】hadoop-3.1.3 单机版YARN(配置、启动停止shell脚本修改及服务验证)
Hadoop【部署 02】hadoop-3.1.3 单机版YARN(配置、启动停止shell脚本修改及服务验证)
46 0
|
4月前
|
分布式计算 Hadoop Java
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
85 0
|
4月前
|
分布式计算 网络协议 Hadoop
大数据成长之路------hadoop集群的部署 配置系统网络(静态) 新增集群(三台)
大数据成长之路------hadoop集群的部署 配置系统网络(静态) 新增集群(三台)
27 0

相关产品

  • 智能数据建设与治理 Dataphin