使用Ranger对Hive数据进行脱敏-阿里云开发者社区

使用Ranger对Hive数据进行脱敏

2019-01-15 8843

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

EMR Serverless StarRocks，5000CU*H 48000GB*H

EMR Serverless Spark 免费试用，1000 CU*H 有效期3个月

简介： Ranger支持对Hive数据的脱敏处理(Data Masking)，它对`select`的返回结果进行脱敏处理，对用户屏蔽敏感信息。

Ranger支持对Hive数据的脱敏处理(Data Masking)，它对select的返回结果进行脱敏处理，对用户屏蔽敏感信息。

备注:
该功能针对HiveServer2的场景(如beeline/jdbc/Hue等途径执行的select)，对于使用Hive Client(如hive -e 'select xxxx')不支持。

接下来介绍如何在E-MapReduce中使用该功能的步骤。

1.Hive组件配置Ranger

在Ranger UI的emr-hive的service页面可以对用户访问Hive数据进行脱敏处理。

配置Policy流程:
mask_1

mask_2

mask_4

最后保存即可。

场景:
用户test在select表testdb1.testtbl中列a的数据时，只显示最开始的4个字符。

流程:
a) 配置policy
在上面一节的最后一个截图，其实就是配置了该场景的一个policy，可参考上图(其中脱敏方式选择了show first 4)。

b) 脱敏验证
test用户使用beeline连接HiveServer2,执行select a from testdb1.testtbl

mask5

如上图所示，test用户执行select命令后，列a显示的数据只有前面4个字符是正常显示，后面字符全部用x来脱敏处理。