《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4)


2. HWC 授权

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3) https://developer.aliyun.com/article/1226342?groupCode=ClouderaCDP


配置 Hive 仓库连接器(HWC)的方式会影响查询授权过程和您的安全性。通过 HWC访问 Hive 有多种方法,并非所有操作都通过 HiveServer(HS2)。一些操作,例如Spark Direct Reader 和 Hive Streaming,通过 HMS 直接进入 Hive,其中通常适用基于存储的权限。


作为客户端用户,您必须在使用 HWC 之前使用 kerberos 登录。您需要适当的存储权限才能写入目标分区或表位置。您需要配置 HWC 读取选项。HWC 读取配置选项如下表所示:

image.png


这些读取配置选项需要连接到不同的 Hive 组件:


• 直接阅读配置:连接到 Hive Metastore(HMS)

• JDBC 配置:连接到 HiveServer(HS2)

• 安全访问配置:连接到 HiveServer(HS2)


Ranger 授权通过 HiveServer(HS2)或 Hive metastore API(HMS API)从 Spark

访问 Hive 表。


要将 ACID 管理的表从 Spark 写入 Hive,您必须使用 HWC。要将外部表从 Spark 写

入 Hive,您可以使用原生 Spark 或 HWC。


下图展示了典型的读授权流程:

image.png


下图展示了型的授权程:

image.png


在编写时,HWC 始终通过 HiveServer(HS2)强制执行授权。在 JDBC 模式下读取托管表会强制执行 Ranger 授权,包括列映射等细粒度功能。在 Direct Reader 模式下,Ranger 和 HMS 集成提供授权。


外部表查询通过 HMS API 进行,该 API 也与 Ranger 集成。如果您不使用 HWC,则与 Ranger 集成的 Hive metastore(HMS)API 会授权外部表访问。HMS API-Ranger集成在这种情况下强制执行 Ranger Hive ACL。使用 HWC 时,DROP TABLE 等查询会影响文件系统数据以及 HMS 中的元数据。


使用 Direct Reader 选项,SparkSQL 查询直接从 HMS 读取托管表元数据,但前提是您有权访问文件系统上的文件。您不能使用 Direct Reader 选项写入托管表。


• 托管表授权


Spark 作业在尝试访问 Apache Hive 托管表时模拟最终用户。作为最终用户,您无权访问 Hive 仓库中的托管文件。托管表具有默认文件系统权限,不允许最终用户访问,包括 Spark 用户访问。


作为管理员,当您为 JDBC 读取配置 HWC 时,您可以在 Ranger 中设置访问托管表的权限。您可以微调 Ranger 以保护特定数据。例如,您可以屏蔽某些列中的数据,或设置基于标签的访问控制。


当您为 Direct Reader 模式配置 HWC 时,您不能以这种方式使用 Ranger。您必须为托管表设置对文件系统位置的读取访问权限。您必须对 Hive 仓库位置(hive.metastore.warehouse.dir)具有读取和执行权限。


• 外部表授权


支持外部表读写 Ranger 授权。您需要在 Cloudera Manager 中配置一些属性以授权外部表写入。您必须被授予对外部表文件的文件系统权限,以允许 Spark 直接访问实际的表数据,而不仅仅是表元数据。


1) 直接读取授权限制


由于 Spark 允许用户运行任意代码,Ranger 细粒度的访问控制,例如行级过滤或列级屏蔽,在 Spark 本身是不可能的。此限制扩展到使用 Direct Reader 读取的数据。


要在细粒度级别限制数据访问,请使用支持 Ranger 的读取选项。如果不需要细粒度访问,仅考虑使用 Direct Reader 选项从 Spark 读取 Hive 数据。例如,将 Direct  Reader 用于 ETL 用例。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(5) https://developer.aliyun.com/article/1226326?groupCode=ClouderaCDP


目录
相关文章
|
3月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
112 0
|
17天前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
|
16天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之在ADB中,如何将源数据的多表(数据结构一致)汇总到一张表
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
311 0
|
2月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
74 0
|
2月前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
231 2
数据仓库(09)数仓缓慢变化维度数据的处理
|
4月前
|
存储 机器学习/深度学习 数据挖掘
数据仓库与数据湖:解析数据驱动的未来
在数字化时代,数据成为企业决策的核心资源。本文将深入探讨数据仓库和数据湖的概念、特点以及应用场景,分析其在实现数据驱动决策过程中的重要性和优势,并展望数据驱动的未来发展趋势。
113 5
|
4月前
|
SQL 分布式计算 Java
数仓学习---7、数据仓库设计、数据仓库环境准备、模拟数据生成
数仓学习---7、数据仓库设计、数据仓库环境准备
142 2
|
5月前
|
Cloud Native 关系型数据库 MySQL
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
88 0
|
5月前
|
Cloud Native 关系型数据库 MySQL
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
39 0

热门文章

最新文章