开发者学堂课程【云原生一体化数仓新能力解读课程:数据安全能力解读】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1193/detail/18114
数据安全能力解读
Alice 可以把这个表和这个资源用一个 package 共享给另外一个项目,dean 可以把这个数据想给 Emma ,这个时候 Alice 可以管理这个项目,比如删除它,或者是可以把项目里面一些资源删掉,或者说把package授权的项目做一些更改,可以控制这个配置,然后安装的个管理员店可以装或者不装这个项目,也可以把 package这里的一些资源授权或者不授权给自己内部是可以控制的。
举一个例子,比如说 exl 其实也可以做一些肯定审核这些设置,这些是新的全年模型2.0支持的,比如可以把一些 label 授权到角色,然后可以单独控制 download 的这个权限,然后 POS 也可以用不让他如何的这种语法来控制它,然后拍的是里面可以是 label 这种授权,然后还有一些很细的查询,比如说,可以查询这个用户的各种权限,然后可以查询这个用户对项目业内共享资源的一些权限,作一个用户,然后他的一些后面这样一些参数,然后还可以查一下中间表的一些数据情况,比如说收官的一个表。然后这个任务授权给哪个用户,这个封闭是一个授权的情况。
其他的一些内容也包括这种其实比较散,包括审计可以全部加密这个维护容灾等等,这些还是安全体系。 Mc是一个多数的,然后对自己的进程,用户的业务进程是托管 MC 的个引擎上面去执行的,所以会把分布式用户的权限做经常的隔离。因为反正在 MC 的平台内部的不用担心有一些安全漏洞的,但是自己会有一些代码,这些代码有可能比如要耗 CPU 资源访问一些看过文件,是你没法控制用户会做什么,他可能会有所以,比如说这些恶意用户,他可能会作为个勘察别人的、数据或者探查别的用户的数据,或者是破坏系统,或者是窃取一些敏感数据的这这些操作,这些用户的进程,如果也能跑在这个投资平台上的话,是一个很危险的事情,会把这种用户的代码隔离到一个用户自己的专门的网络里面,在这个网络里面去做这种一个应用,然后再跟数仓去打通,然后这里面涉及到可能要外部做开发,要申请资源,然后要对应的分布式的一些调度,这些带宽的问题是很麻烦的这把这些事全包,在内部有用户有个很深度定制的一个f可以执行用户非常细节的一些逻辑,但是这个的安全持续环境是用MC的这种基于沙箱政治防御体系来保护的。
Mc 的这些分布式的,这个用户自己的代码的时候是会给他开一个容器,这里面会有从应用到km到可操作系统的内核这个级别的这么一个三层保护的这么一个沙箱,用户是拿不到这些底层的敏感的一些数据或者资源的一些访问的方法。然后只能有一些标准的输入输出,把数字结果再创作,用演员平台的个任务,下一个 c是去最后得到一个结果,这个中间的一个过程是有一个沙箱保护的。
然后安全审计安全审计是 MC 的一个基础的能力,MBA 内部从上面的访问到权限到存储计算有对应的服务模块,而且记录用户的操作,包括一个表的这种业务的访问,也包括底层文件存储调度的一个访问或者临时连接,可以追溯到MC的哪个项目空间,哪个用户去发起的这种访问。
但是如果外部应用去访问 MC 的话拿不到,因为很多应用层的自己内部的逻辑跟的账号的个托管一个其他的账号访问,只记得最终执行的一个账号,并不知道业务层之间的逻辑,这些日志记在 MBA 的原仓或者是 UC,或者这种公务员的审计的功能上面,这是包括像执行这个任务上面下载,还有访问,然后其他的像刚才说的授权 label,还有它配置这些信息也在原仓里没有。
公务员的审计的话是会记些项目空间的,生命周期对资源的一些访问权限的授权回收。然后下载一些作业的日志,供一些人做一些操作行为的分析,然后可以做一些敏感数据房的定位,然后做一些历史的分析,项目周期的管理,权限的些审计,然后异常数据的这种发现,这个数据会实时的通报投递个 SMS 的链路,然后投递到对哪有什么重要的这种服务里面做这种回溯。
加密第一个是这可以做存储加密,可以做这种 tde 的透明的这种是防拷贝的一种加密用户拿一个 ak 过来,它是如果是授权的合法的用户,这个项目对它加密是透明的,它可以像没有加密一样用这个项目里的数据,但是如果用户没这个权限的话,首先他访问不了,他也拿不到这个 ak 也拿不到这个 kms 里面这个密钥数据是没法解密的,无论它是从应用访问,还是从盘古去拷走,或者是明显的把盘子拿走,访问哪一块的数据,用户在创业项目的时候可以设置这个项目是加密还是不加密的,可以支持这种主流加密算法,也是 sm4 加密算法,可以用这种上面的用户自己自另一个密钥来做这种加密。
传输,其实是由网络层保保保证的,还可以支持abs这种传单个。非常丰富,是防止用户作为操作的。也是说如果用户对一个数据做删除,这种dml的操作,这些东西是没法避免的,因为系统不知道哪些是真正的业务上正确还是错误的,每一个可以被执行的会被容灾备份,但是无操作可能会覆盖掉真正的有价值的数据,MC会对原数据做任何一个版本的一个操一个刚才说的可以被恢复的电板电压和这些操作的原数据版本快照,然后默认是给有一天的这种回本的这个时间的,然后当然设的有更长的话会有对应的存储成本,但是你可以用更长时间的保障,在这些历史的这个版本拍照里头,可以恢复回这个汕头的表或恢复回这个表出现的一个状态。这样的话可以恢复回操操作的数据。
然后容灾是防止的主环境如果挂的话,在备环备份环境的数据丢失或者说当时的一些作业是它在备注环境里它有一份备份,可以快速的恢复和用户的业务。
你如果在这个在公务员和账号云存在稍微有点区别,在公共云上的话是一个多元的环境,比如上海深圳有一块系统,它有自己的原数据,这个原数据其实是全局统一的,这个是保证是一样的,因为它是一半上海的个系统挂,它会实时的近实时的去统去同步数据,因为它是受带宽影响的,用户也不敢支付条件,也没法访问这个备份数据,但是你知道这个数据已经被备份到你的备份集群,当这个准备证不能访问的时候,用户还是需要显示的切一下前端,然后把它指到这个备份的这个集群上面,然后把它设置成作为一个容灾判断,你不能让系统做判断,把这个背景群的这个恢复成为一个默认集群,然后这个里面会用后备资源。
专有云跟它是类似的,专有云它的前端是有一个 smd 承载的。
所以是用户不需要切前端。 然后数据原数据的话其实也是一份去同实时同步的,数据的同步是靠对应的拉的专线或者是对应的网络环境去做的,所以 IPO 是依赖于这个数据复制的这个时间的,这数据如果没复制过来,原数据也不会不成个这跟跟主机圈一样的版本,只要数据复制过来之后这个版本会拉齐,当然原数据会一直进这些版本,然后真正数据这个这个主机群挂之后,根据这个承担起来,最难可用的一个版本去继续承载这个业务,所以说这个切换个时间除系统的几秒的时间之外,秒移的时间之外,其他一个人物参与决策的时间需要人工参与来决定这个是不是要做切换切换到这个 b上面,来决策,其实是一个动作,然后后边的话直接用微信去承载业务。
九、DataWorks安全能力
DataWork 和 MC 是一个黄金搭档,可以把一些用户的使用层面的一些安全能力完全管理,包括一些数据的审批,然后以及数据的脱敏,做一些规则的识别一些业务上的工作。
回顾一下整个的这个安全这个架构,下面包括一些数据中心的安全机制。
然后和更新的一些网络安全的机制,重点的话数据和日志的这个技术的能力,然后广告等等,整个的数据处理的链路,包括采集、传输、存储、处理、交换和消费的过程中,MC 用哪些能力去保障,然后还有传输加密,因为专线网络认证,还有系列的学习管控,然后客户端的一些限制包括这 acl 这些授权库存c的这个对安全的一些管理能力,然后对于这些这些引擎里面的管理能力之上也得有应用的来配合,才能做到这些用户的安全规则的一个业务实现,包括说的权限的申请审批的这个流程,然后保护伞的一些识别以及数据盘点,然后数据的一些学员分析,会知道这个数据是什么数据,以及是不是不需要访问的数据的这些数据的人员访问控制,统计。
包括数据地图数据地图告诉有什么数据,数据有多大,然后它是不是该你访问的,用语言数据的展现的方式,可以看到一些有哪些表,然后表有多大,然后它的产出来源血源是什么样子的,然后不要立是什么样子的。
然后再更细话,安全级别也是 GMC 的内部收费可以去实现的,然后可以看到这个表的些安全级别,然后信息,然后可以做授权表的那个权限申请,然后用什么账号用多长时间,然后申请哪一张比较蓝颜字段,然后它可以受使用自己权限内的一些字段,提交审批单,然后审批的人的话可以收到这个审批单,看到它对应的用户的权限。
访问的个册子,他要申请的什么数据,然后对应给他做授权,最后这个这个数据会定期去审计,看是不是该比如人员张岗离职之后,是不是该要快速的及时清理掉,里面个账号的数据还有泄露风险。
然后保护伞是对数据的,一个是数据安全风险,是用户共享数据使用数据的这些脚本可以做一些安全的规定,走的太长,然后有识别出一些系统里面的一些逻辑,用一些规则来识别一些逻辑,提示这里头会有风险,但是由用户自己来判断这个是不是有没有安全的问题,有专门的安全管理员去做审计,他只是做规则的识别,然后包括一些报表来统计安全问题有多少,哪些处理的没有处理。
然后数据保护伞是对数据网外部访问,比如查询或导出时候的一些特殊处理,比如说电话号码或者邮箱或者是身份证等等一些敏感信息,初级保护会自动一些规则去识别出来,然后做一些脱密脱密的这种能力。
然后用户,刚才看到用户决策的子账号是什么,然后是一节课扮演的产品之间打通的工作能力,然后还有作物什么项目用的,权限看到整个Excel对主体课题,然后有哪些学生点作为控制,然后数据在哪数据的来来源零出处,数据在哪在逻辑上是为项目空间保护的,租户内部的隔离的这么一个环境,然后可以有强保护的机制,真正运行的时候,它是在健康隔离的引擎里面,然后用户有代码的话可以在纱线的运行环境里面隔离,然后用户的真正执行的这个环境是一个安全的环境,然后用户的下载的话,也被项目空间去防止它的非法的这种导出。网络当然也是可以的。
然后谁用的数据和谁用数据的话是由安全审计去做的,然后用的数据的话用审批来控制的,应用数据是完全审计来看的,当然它是基于MC的原数据和日志来做到的,最后会有这种方式滥用的细粒度的内容所规定的这种分级管理,然后数据脱敏的导出的是访问查询这种策略,以及防止泄露的种传输加密的这些安全机制,防止数据丢失,有开通恢复这种业务操作的也有容灾这个能力。
最后欢迎大家的开发社区去交流安全能力,可以进行探索。