开箱即用的安全方案:MaxCompute数据安全方案介绍

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介:

MaxCompute 是一个支持多租户的统一大数据处理平台,不同的用户对数据安全需求不尽相同。为了满足不同租户对数据安全的灵活需求,MaxCompute 支持项目空间级别的安全配置,ProjectOwner 可以定制适合自己的外部账号支持和鉴权模型并且在某种程度上保障Project的数据安全。

通常情况下,常见的开发模式为__MaxCompute+DataWorks__方式,针对这种场景下数据安全方案如下:

一、禁止数据下载到本地

禁止数据流出或下载本地

方式①:
数据保护机制也被称之为开启项目空间数据保护,可以通过MaxCompute console 开启服务端禁止数据流出:

set projectProtection=true 
--设置ProjectProtection规则:数据只能流入,不能流出。
--默认时,ProjectProtection不会被设置,值为false。

方式②:
那么更多开发者通过DataWorks进行数据分析,通常会屏显在IDE上并且可以下载结果,这种可以通过项目管理 > 项目配置中打开“在本项目中能下载select结果”,具体如下:

image.png | left | 747x318

那么这种情况下,在DataWorks查询结果页面就不可以通过“下载”按钮进行下载数据到本地。

image.png | left | 747x255

开启数据保护机制后的数据流出方法

在您的Project被设置了ProjectProtection之后,您可能很快就会遇到这样的需求:user1向您提出申请,她的确需要将某张表的数据导出您的项目空间。

而且经过您的审查之后,那张表也的确没有泄漏您关心的敏感数据。为了不影响user1的正常业务需要,MaxCompute为您提供了在ProjectProtection被设置之后的两种数据导出途径。

方式①:
ProjectOwner设置ExceptionPolicy,针对已经开启项目数据保护的进行开例外。具体方式如下(需要通过MaxCompute console操作):

SET ProjectProtection=true WITH EXCEPTION <policyFile>

这种policy不同于Policy授权(尽管它与Policy授权语法完全一样),它只是对项目空间保护机制的例外情况的一种描述,即所有符合policy中所描述的访问情形都可以打破ProjectProtection规则。>>>policy详细文档

 {
    "Version": "1",
    "Statement":
    [{
        "Effect":"Allow",
        "Principal":"ALIYUN$Alice@aliyun.com",
        "Action":["odps:Select"],
        "Resource":"acs:odps:*:projects/alipay/tables/table_test",
        "Condition":{
            "StringEquals": {
                "odps:TaskType":["DT", "SQL"]
            }
        }
    }]
    }

ProjectProtection是一种数据流向的控制,而不是访问控制。只有在用户能访问数据的前提下,控制数据流向才是有意义的。

*** 另外,可以通过show grants [for <username>] [on type <objectType>] 查看某用户权限,查看是否加例外成功。

方法②:
设置TrustedProject,若当前项目空间处于受保护状态,如果将数据流出的目标空间设置为当前空间的TrustedProject,那么向目标项目空间的数据流向将不会被视为触犯ProjectProtection规则。可以通过如下命令方式进行设置(需通过MaxCompute console进行):

list trustedprojects;
--查看当前project中的所有TrustedProjects
add trustedproject <projectname>;
--在当前project中添加一个TrustedProject
remove trustedproject <projectname>;
--在当前project中移除一个TrustedProject

二、IP白名单控制

MaxCompute支持Project级别的IP白名单。

  • 设置IP白名单后,只有白名单列表中的IP(console或者SDK所在的出口IP)能够访问这个Project。
  • 设置IP白名单后,您需要等待五分钟后才会生效。
  • 切记在设置白名单的时候,加上自己当前机器IP,以免把自己屏蔽。
setproject odps.security.ip.whitelist=101.132.236.134,100.116.0.0/16,101.132.236.134-101.132.236.144;

白名单中IP列表的表示格式有三种。

  • 单纯IP:例如101.132.236.134。
  • 子网掩码:100.116.0.0/16。
  • 网段:101.132.236.134-101.132.236.144。

具体详细教程可以参考,>>>>IP白名单控制

更精细化的管理

当然MaxCompute Policy机制也可以实现控制某个用户/或者角色的用户从具体IP地址来访问具体资源(表、UDF、资源)等。
Policy样例:

{
    "Version": "1",
    "Statement":
     [{
        "Effect":"Allow",
        "Principal":"ALIYUN$alice@aliyun.com",
        "Action":["odps:CreateTable","odps:CreateInstance","odps:List"],
        "Resource":"acs:odps:*:projects/prj1",
        "Condition":{
            "DateLessThan": {
                "acs:CurrentTime":"2013-11-11T23:59:59Z"
            },
            "IpAddress": {
                "acs:SourceIp":"10.32.180.0/23"
            }
        }
    },
    {
        "Effect":"Deny",
        "Principal":"ALIYUN$alice@aliyun.com",
        "Action":"odps:Drop",
        "Resource":"acs:odps:*:projects/prj1/tables/*"
    }]
    }

授权用户alice@aliyun.com只能在"2013-11-11T23:59:59Z"这个时间点之前、只能从“10.32.180.0/23”这个IP段提交请求, 只允许在项目空间prj1中执行CreateInstance, CreateTable和 List操作,禁止删除prj1下的任何table。具体可以参考Policy文档

三、数据保护伞(数据脱敏)

数据保护伞为DataWorks的一个数据安全模块,具体可以通过点击进入进行了解,其包括数据脱敏、安全审计等。https://help.aliyun.com/document_detail/86320.html

可以针对敏感数据在DataWorks屏显进行加**显示,如下图所示:

image.png | left | 747x381

注意:数据保护伞是DataWorks的一个模块,如果使用了数据保护伞且进行了数据脱敏,但是通过console进行tunnel download还是未脱敏状态。

四、细粒度的权限管控

1、列级别LabelSecurity访问控制
项目空间中的LabelSecurity安全机制默认是关闭的,ProjectOwner可以自行开启。

【应用场景】
场景说明:user_profile是某项目空间中的一张含有敏感数据的表,它包含有100列,其中有5列包含敏感数据:id_card, credit_card, mobile, user_addr, birthday. 当前的DAC机制中已经授权了所有用户对该表的Select操作。ProjectOwner希望除了Admin之外,所有用户都不允许访问那5列敏感数据。

ProjectOwner操作步骤如下:

set LabelSecurity=true; 
   --开启LabelSecurity机制
set label 2 to table user_profile(mobile, user_addr, birthday); 
   --将指定列的敏感等级设置为2
set label 3 to table user_profile(id_card, credit_card); 
   --将指定列的敏感等级设置为3

Alice是项目空间中的一员,由于业务需要,她要申请访问user_profile的mobile列的数据,需要访问1周时间。项目空间管理员操作步骤如下:

GRANT LABEL 2 ON TABLE user_profile TO USER alice WITH EXP 7;

更多关于列级别安全控制文档:https://help.aliyun.com/document_detail/34604.html

2、Role Policy管理自定义Role
很多用户会因为DataWorks内置的数据开发、运维、管理员等角色不能满足其个性化需求,会基于ACL创建符合自己业务逻辑的角色如数据分析师、ETL开发等,基于这些role如何进行复杂的授权,如批量授予ods_开头的表权限,但限制条件的,以及Deny类型的角色,这个时候就需要结合Role policy来精细化管理。

  • 一次操作对一组对象进行授权,如所有的函数、所有以”taobao”开头的表。
  • 带限制条件的授权,如授权只会在指定的时段内才会生效、当请求者从指定的IP地址发起请求时授权才会生效、或者只允许用户使用SQL(而不允许其它类型的Task)来访问某张表。

方式①:
Policy操作代码如下所示:

get policy --读取项目空间的Policy
put policy <policyFile> --设置(覆盖)项目空间的Policy
get policy on role <roleName> --读取项目空间中某个角色的Policy
put policy <policyFile> on role <roleName> --设置(覆盖)项目空间中某个角色的Policy

更多关于Policy的介绍以及操作详见文档:http://www.aiwanba.net/plugin/odps-doc/prddoc/odps_security/odps_sec_authorization_dac.html

方式②:
通过DataWorks-项目管理-MaxCompute配置-自定义用户角色中进行。

image.png | left | 747x294

创建步骤:

  • 【新增角色】点击新建角色,填写角色名称,勾选需要加入该角色的账号(子账号用户)。

image.png | left | 699x412

  • 【角色授权】包括两种一个是表一个是项目。以表为例:

image.png | left | 509x216

  • 选择需要授权的表,并赋予相应的操作权限,如下所示针对具体表赋予具体权限。

image.png | left | 732x300

说明:上述两种方式最大的区别就是,role policy可以进行批量表授权,如以taobao_开头的。但是DataWorks大的方式需要逐个表来进行筛选并配置权限。

四、JDBC 2.4(数据安全加固)

MaxCompute JDBC 2.4针对数据安全加固做了一定的挑战,具体JDBC地址:https://github.com/aliyun/aliyun-odps-jdbc/releases

在JDBC中使用数据安全加固方案具体步骤:

  1. 下载JDBC 2.4(建议)
  2. 配置jdbc url,通常如下制定Tunnel endpoint地址,如 jdbc:odps:http://service.cn.maxcompute.aliyun-inc.com/api?tunnelEndpoint=http://dt.cn-shanghai.maxcompute.aliyun-inc.com
  3. 具体region对应的MaxCompute Endpoint和Tunnel Endpoint可以参考文档:https://help.aliyun.com/document_detail/34951.html
  4. 开启项目保护SET ProjectProtection=true,不需要加exception例外,具体可以想见项目保护机制章节。
  5. 打开控制返回数据条数:setproject READ_TABLE_MAX_ROW=1000;
  6. 基于JDBC的工具进行查询,数据返回条数会控制在1000条以内。

说明:如果使用的版本小于JDBC 2.4,并且开启了项目保护那么通过JDBC方式会直接报错(无权限)。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标 &nbsp;通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群 &nbsp;企业数据仓库开发人员 &nbsp;大数据平台开发人员 &nbsp;数据分析师 &nbsp;大数据运维人员 &nbsp;对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
2月前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
66 2
|
4月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
78 0
|
1月前
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
94 6
|
1月前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
2月前
|
自然语言处理 算法 Unix
【数据安全】敏感字过滤方案总结
【数据安全】敏感字过滤方案总结
46 1
|
2月前
|
Java fastjson Apache
【数据安全】数据脱敏方案总结
【数据安全】数据脱敏方案总结
103 1
|
1月前
|
存储 安全 大数据
|
2月前
|
存储 NoSQL 大数据
大数据-51 Redis 高可用方案CAP-AP 主从复制 一主一从 全量和增量同步 哨兵模式 docker-compose测试
大数据-51 Redis 高可用方案CAP-AP 主从复制 一主一从 全量和增量同步 哨兵模式 docker-compose测试
38 3
|
2月前
|
SQL 分布式计算 大数据
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(一)
52 0
|
2月前
|
大数据 流计算
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
大数据-108 Flink 快速应用案例 重回Hello WordCount!方案1批数据 方案2流数据(二)
47 0

相关产品

  • 云原生大数据计算服务 MaxCompute