《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4)


2. HWC 授权

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3) https://developer.aliyun.com/article/1226342?groupCode=ClouderaCDP


配置 Hive 仓库连接器(HWC)的方式会影响查询授权过程和您的安全性。通过 HWC访问 Hive 有多种方法,并非所有操作都通过 HiveServer(HS2)。一些操作,例如Spark Direct Reader 和 Hive Streaming,通过 HMS 直接进入 Hive,其中通常适用基于存储的权限。


作为客户端用户,您必须在使用 HWC 之前使用 kerberos 登录。您需要适当的存储权限才能写入目标分区或表位置。您需要配置 HWC 读取选项。HWC 读取配置选项如下表所示:

image.png


这些读取配置选项需要连接到不同的 Hive 组件:


• 直接阅读配置:连接到 Hive Metastore(HMS)

• JDBC 配置:连接到 HiveServer(HS2)

• 安全访问配置:连接到 HiveServer(HS2)


Ranger 授权通过 HiveServer(HS2)或 Hive metastore API(HMS API)从 Spark

访问 Hive 表。


要将 ACID 管理的表从 Spark 写入 Hive,您必须使用 HWC。要将外部表从 Spark 写

入 Hive,您可以使用原生 Spark 或 HWC。


下图展示了典型的读授权流程:

image.png


下图展示了型的授权程:

image.png


在编写时,HWC 始终通过 HiveServer(HS2)强制执行授权。在 JDBC 模式下读取托管表会强制执行 Ranger 授权,包括列映射等细粒度功能。在 Direct Reader 模式下,Ranger 和 HMS 集成提供授权。


外部表查询通过 HMS API 进行,该 API 也与 Ranger 集成。如果您不使用 HWC,则与 Ranger 集成的 Hive metastore(HMS)API 会授权外部表访问。HMS API-Ranger集成在这种情况下强制执行 Ranger Hive ACL。使用 HWC 时,DROP TABLE 等查询会影响文件系统数据以及 HMS 中的元数据。


使用 Direct Reader 选项,SparkSQL 查询直接从 HMS 读取托管表元数据,但前提是您有权访问文件系统上的文件。您不能使用 Direct Reader 选项写入托管表。


• 托管表授权


Spark 作业在尝试访问 Apache Hive 托管表时模拟最终用户。作为最终用户,您无权访问 Hive 仓库中的托管文件。托管表具有默认文件系统权限,不允许最终用户访问,包括 Spark 用户访问。


作为管理员,当您为 JDBC 读取配置 HWC 时,您可以在 Ranger 中设置访问托管表的权限。您可以微调 Ranger 以保护特定数据。例如,您可以屏蔽某些列中的数据,或设置基于标签的访问控制。


当您为 Direct Reader 模式配置 HWC 时,您不能以这种方式使用 Ranger。您必须为托管表设置对文件系统位置的读取访问权限。您必须对 Hive 仓库位置(hive.metastore.warehouse.dir)具有读取和执行权限。


• 外部表授权


支持外部表读写 Ranger 授权。您需要在 Cloudera Manager 中配置一些属性以授权外部表写入。您必须被授予对外部表文件的文件系统权限,以允许 Spark 直接访问实际的表数据,而不仅仅是表元数据。


1) 直接读取授权限制


由于 Spark 允许用户运行任意代码,Ranger 细粒度的访问控制,例如行级过滤或列级屏蔽,在 Spark 本身是不可能的。此限制扩展到使用 Direct Reader 读取的数据。


要在细粒度级别限制数据访问,请使用支持 Ranger 的读取选项。如果不需要细粒度访问,仅考虑使用 Direct Reader 选项从 Spark 读取 Hive 数据。例如,将 Direct  Reader 用于 ETL 用例。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(5) https://developer.aliyun.com/article/1226326?groupCode=ClouderaCDP


目录
相关文章
|
22天前
|
存储 Cloud Native 关系型数据库
云原生数据仓库使用问题之如何将一行数据转换为多行数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
94 2
|
22天前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
22天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
23天前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
2月前
|
存储 SQL Cloud Native
云原生数据仓库AnalyticDB产品使用合集之热数据存储空间在什么地方查看
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库AnalyticDB产品使用合集之是否支持mysql_fdw 和clickhousedb_fdw外部数据包装器
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
127 4
|
2月前
|
监控 Cloud Native 关系型数据库
云原生数据仓库AnalyticDB产品使用合集之如何更新、删除和导入AnalyticDBMySQL数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
运维 Cloud Native 关系型数据库
云原生数据仓库AnalyticDB产品使用合集之一次性最多能查询多少条数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之在ADB中,如何将源数据的多表(数据结构一致)汇总到一张表
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章