《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4)


2. HWC 授权

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3) https://developer.aliyun.com/article/1226342?groupCode=ClouderaCDP


配置 Hive 仓库连接器(HWC)的方式会影响查询授权过程和您的安全性。通过 HWC访问 Hive 有多种方法,并非所有操作都通过 HiveServer(HS2)。一些操作,例如Spark Direct Reader 和 Hive Streaming,通过 HMS 直接进入 Hive,其中通常适用基于存储的权限。


作为客户端用户,您必须在使用 HWC 之前使用 kerberos 登录。您需要适当的存储权限才能写入目标分区或表位置。您需要配置 HWC 读取选项。HWC 读取配置选项如下表所示:

image.png


这些读取配置选项需要连接到不同的 Hive 组件:


• 直接阅读配置:连接到 Hive Metastore(HMS)

• JDBC 配置:连接到 HiveServer(HS2)

• 安全访问配置:连接到 HiveServer(HS2)


Ranger 授权通过 HiveServer(HS2)或 Hive metastore API(HMS API)从 Spark

访问 Hive 表。


要将 ACID 管理的表从 Spark 写入 Hive,您必须使用 HWC。要将外部表从 Spark 写

入 Hive,您可以使用原生 Spark 或 HWC。


下图展示了典型的读授权流程:

image.png


下图展示了型的授权程:

image.png


在编写时,HWC 始终通过 HiveServer(HS2)强制执行授权。在 JDBC 模式下读取托管表会强制执行 Ranger 授权,包括列映射等细粒度功能。在 Direct Reader 模式下,Ranger 和 HMS 集成提供授权。


外部表查询通过 HMS API 进行,该 API 也与 Ranger 集成。如果您不使用 HWC,则与 Ranger 集成的 Hive metastore(HMS)API 会授权外部表访问。HMS API-Ranger集成在这种情况下强制执行 Ranger Hive ACL。使用 HWC 时,DROP TABLE 等查询会影响文件系统数据以及 HMS 中的元数据。


使用 Direct Reader 选项,SparkSQL 查询直接从 HMS 读取托管表元数据,但前提是您有权访问文件系统上的文件。您不能使用 Direct Reader 选项写入托管表。


• 托管表授权


Spark 作业在尝试访问 Apache Hive 托管表时模拟最终用户。作为最终用户,您无权访问 Hive 仓库中的托管文件。托管表具有默认文件系统权限,不允许最终用户访问,包括 Spark 用户访问。


作为管理员,当您为 JDBC 读取配置 HWC 时,您可以在 Ranger 中设置访问托管表的权限。您可以微调 Ranger 以保护特定数据。例如,您可以屏蔽某些列中的数据,或设置基于标签的访问控制。


当您为 Direct Reader 模式配置 HWC 时,您不能以这种方式使用 Ranger。您必须为托管表设置对文件系统位置的读取访问权限。您必须对 Hive 仓库位置(hive.metastore.warehouse.dir)具有读取和执行权限。


• 外部表授权


支持外部表读写 Ranger 授权。您需要在 Cloudera Manager 中配置一些属性以授权外部表写入。您必须被授予对外部表文件的文件系统权限,以允许 Spark 直接访问实际的表数据,而不仅仅是表元数据。


1) 直接读取授权限制


由于 Spark 允许用户运行任意代码,Ranger 细粒度的访问控制,例如行级过滤或列级屏蔽,在 Spark 本身是不可能的。此限制扩展到使用 Direct Reader 读取的数据。


要在细粒度级别限制数据访问,请使用支持 Ranger 的读取选项。如果不需要细粒度访问,仅考虑使用 Direct Reader 选项从 Spark 读取 Hive 数据。例如,将 Direct  Reader 用于 ETL 用例。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(5) https://developer.aliyun.com/article/1226326?groupCode=ClouderaCDP


目录
相关文章
|
3月前
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
76 3
|
4月前
|
存储 Cloud Native 关系型数据库
云原生数据仓库使用问题之如何将一行数据转换为多行数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
2月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
79 4
|
1月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
3月前
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
127 0
|
4月前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
5月前
|
存储 SQL Cloud Native
云原生数据仓库AnalyticDB产品使用合集之热数据存储空间在什么地方查看
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
117 4

热门文章

最新文章