如何有效降低大数据平台安全风险

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 在2019杭州云栖大会大数据企业级服务专场,由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着,在大数据平台中要处理的安全风险中,对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后,描述了阿里云飞天大数据平台的安全体系。

摘要:在2019杭州云栖大会大数据企业级服务专场,由阿里云智能计算平台事业部资深技术专家李雪峰带来以“如何有效降低大数据平台安全风险”为题的演讲。本文首先概括了企业在大数据上云过程中会产生的安全顾虑。接着,在大数据平台中要处理的安全风险中,对数据中心物理安全与网络安全、大数据平台系统安全以及数据应用安全三部分做了详细的介绍。最后,描述了阿里云飞天大数据平台的安全体系。

精彩视频回放 >>>
以下为精彩视频内容整理:


企业大数据上云的安全顾虑
企业大数据在上云过程中,通常会有这样一些安全顾虑:“数据从企业内部迁移到云上后,数据有没有可能会被丢掉? ”,“数据在云上存储时,数据是否可能被篡改?”, “数据在云上使用的时候,数据是否有可能被泄露出去? ”。这三类问题非常具有代表性,它们刚好涵盖了信息安全的三个基本要素,即: 信息的可用性、信息的完整性以及信息的保密性。应当说,这三类问题并不是因为大数据上云而额外带来的,即使在企业内部构建自身的大数据平台的时候,依然要解决这三类安全问题。今天我们将通过深入解读飞天大数据中台的安全体系,帮助企业了解如何有效降低大数据中台的安全风险。

image.png

我们将企业级大数据中台要面临的安全风险, 根据其所涉及的系统及技术领域的不同, 分为三个层次。最基础的层次是数据中心的物理安全与网络安全,数据中心是构建大数据中台的基础,数据中心自身安全性和网络接入安全性直接影响到企业大数据中台的可用性。在这之上是企业大数据平台的系统安全,由大数据平台内部的各个安全子系统构成,这些安全子系统共同保障了大数据平台的完整性。最上层是数据应用安全,这层贴近于用户的应用场景。通过在这一层提供丰富多样的数据安全产品,大数据中台为用户应用数据的各类业务场景提供切实可靠的数据安全能力。

数据中心物理安全与网络安全

image.png

在飞天大数据中台中,数据中心物理与网络层的安全保障, 由阿里云数据中心安全基础设施提供。我们重点介绍三个维度的安全措施:

第一个维度是数据中心保障设施,主要包括供电保障以及冷却保障. 阿里云数据中心可以支持独立的多路供电、低压变配电系统和高冗余UPS/HVDC以及高可靠后备电源系统和多级防雷接地系统, 这些设施共同为阿里云数据中心提供了高可用的供电保障。阿里云数据中心的冷却系统, 通过提供冷源设备管路以及终端的多路冗余的基础设施, 为数据中心的提供了高可用的冷却保障。

第二个维度是数据中心安全管控。 阿里云数据中心的运维过程遵循一系列的管控流程, 包括安全管控流程和运维管控流程. 在安全管控流程中, 阿里云数据中心将参与整个生产过程的人和物理建筑各分为三个等级,在每个等级上标记不同的颜色,并基于这些颜色标记构建了色彩管控体系。同时,为了检验安全管控流程在设施中持续有效的运行,阿里云数据中心还建立了针对性的对抗检验体系。另一方面,阿里云数据中心还提供7×24运维监控,并且可以将数据中心产生的各类运维事件接入到不同的管控平台中。

第三个维度是数据中心的网络安全。阿里云数据中心一方面提供多路冗余的网络接入,最大限度保证接入网络的可用性, 另一方面提供低收敛比的网络架构,针对大数据计算场景, 量身优化基础网络架构。此外,针对网络攻击,阿里云数据中心不仅可以提供网络高防服务和近源攻击清洗的能力, 还能充分利用云安全基础设施WAF, 为上层大数据平台提供七层的网络防御能力。

大数据平台系统安全

image.png

MaxCompute平台安全系统主要包括四个子系统:

访问控制子系统,负责处理所有的访问接入控制和权限控制. MaxCompute在接入控制上可以支持IP白名单能力,在权限控制上提供ACL(DAC) , LABEL(MAC)权限控制以及基于属性的POLICY(ABAC) 访问控制能力, 还能通过Package提供安全的数据共享能力。

应用程序隔离子系统,该子系统提供独立的隔离环境用于执行数据处理Application. MaxCompute 可以支持 Java和Python语言编写的UDF, 还能够支持执行三方计算引擎,这些都为 MaxCompute的客户提供了更加多元化的数据处理能力。

风控审计子系统,提供多种事件审计的日志,主要包括任务日志和用户日志及表的日志,还提供多种的元数据能力,包括表和资源。

平台可信子系统,基于可信硬件和软件设施提供存储加密等能力。

MaxCompute平台访问控制子系统

image.png

MaxCompute访问控制子系统是构建平台多租户体系的基础。MaxCompute中的每个租户拥有一个或多个project,每个project会包括三类的内容。第一类是project属性,包括Quota和Owner信息。第二类是project数组,包括User ID和Role。第三类是project所有的资源,包括表、函数、文件系统和Instance实例等。

作为我们将在云上提供的新功能之一, 租户可以将VPC ID配置为访问控制条件,仅允许来自于指定VPC的请求,访问特定的project,这就是MaxCompute访问控制的VPC白名单能力。针对在企业场景中,我们还将提供对console端识别的访问控制能力, 以满足企业对生产设备进行日益严格的访问管控安全需求。同时。MaxCompute还将在云上提供权限系统2.0,这其中主要包括 精细粒度ACL权限控制能力, 独立的下载权限,以及人到表及表到人的权限查询能力。所有这些新功能,都旨在为公共云上的企业客户提供更安全更专业的数据授权和适用控制支撑。

MaxCompute平台应用程序隔离子系统

image.png

MaxCompute平台上可支持多种类型的应用程序。当被租户要求执行这些应用程序时,MaxCompute应用程序隔离子系统会将它们分别运行在独立的虚拟化隔离环境中。这不仅为应用的运行环境兼容性提供了保障, 还充分保证了这些应用之间以及他们与平台自身之间有足够强度的安全隔离。

基于这些技术沉淀以及安全保障,MaxCompute平台将在云上为企业客户提供新的应用程序类型 --- 用户自定义引擎。通过用户自定义引擎, 企业基于Spark或者Flink等开源引擎定制的计算引擎,都将可以用来在MaxCompute平台中处理数据。

MaxCompute平台风控审计子系统

image.png

MaxCompute平台将为云上的企业客户重点提供Information Schema 1.0功能。

MaxCompute Information Schema1.0 将包括三种类型的元数据, 分别是数据管理类, 权限管理类以及综合分析类。基于第一类元数据, 用户可以实现详细的数据生命周期的管理功能, 还可以实现Owner检索以及存储尺寸检索的数据管理功能。基于第二类元数据, 用户可以实现用户或角色信息的查询、用户的权限查询、资源的权限查询、表和字段打标的查询等, 这些企业级权限管理类功能。 基于第三类元数据, 用户可以实现定制化分析的功能,包括热表分析、表血缘分析、费用分析、性能分析等企业级分析功能。

MaxCompute Information Schema1.0将以准实时的方式为用户提供数据。

MaxCompute 平台可信子系统

image.png

MaxCompute将在云上为企业客户提供BYOK的存储加密能力。用户可以将自己指定的秘钥上传到阿里云KMS中作为数据加密的根秘钥。 MaxCompute平台在进行数据加密时,经过用户授权, 使用用户上传的主秘钥生成数据加密秘钥(DataKey),然后使用DataKey对数据进行加密, 并将加密过的数据以及经过根秘钥加密过的DataKey存储在物理介质中。 加密过程的算法可以支持AES256和国密算法SM4。

存储加密BYOK,赋予企业需要销毁云上数据的能力. 企业只需要在阿里云KMS中销毁根秘钥, 即可实现销毁云上所有基于此根秘钥加密的数据。

数据应用安全

数据应用安全,本质上需要解决三大数据应用风险: 数据泄露,数据滥用和数据误用。

飞天大数据中台通过DataWorks数据安全产品为用户提供完善的数据应用安全解决方案。DataWorks数据安全产品主要分类三个类别: 权限管控类产品将提供申请流程控制、审批流程控制、权限回收以及权限查看的基本的产品能力; 数据保护类产品将提供数据分类分级、敏感数据识别 、数据打标、静态脱敏以及差分隐私的能力; 风险治理类产品将提供敏感权限审计、数据访问审计、数据防泄漏以及数据防滥用能力。


DataWorks 数据应用安全解决方案

image.png

DataWorks 数据应用安全解决方案如图所示。数据识别能力为用户数据可以提供多种类型的规则进行数据的打标,可以基于数据的字段安全来定义数据的安全等级、个人信息数据等级、表安全等级和安全分类标签,所有的数据在经过自动的识别之后,通过MaxCompute的字段级打标能力直接进入到MaxCompute的源数据中。

DataWorks权限管控类产品,可以基于安全分类标签, 对表,字段级的权限申请进行控制. 这些权限申请在被提交后,交由企业内部业务角色审批。在审批通过之后, DataWorks使用MaxCompute的字段级ACL以及Label等授权手段,为企业数据提供最小粒度的权限控制, 这帮助企业有效减少了数据滥用行为。

所有的授权操作会进入到MaxCompute的风控审计数据中,并通过Information Schema提供给用户进行审计。同时, 这些人员权限审计、资源权限审计、权限使用审计也将为DataWorks 风险治理类数据安全产品提供了数据支撑. 通过使用这类产品, 企业可以通过即时回收数据权限, 有效避免数据泄露。

经过数据识别, 打标为个人敏感信息的数据, DataWorks提供静态脱敏产品,并支持自定义脱敏规则。MaxCompute也提供回显脱敏和下载脱敏的功能。此外,DataWorks还将提供差分隐私的脱敏服务。所有对个人敏感信息的使用也进入了到元数据中,通过MaxCompute Information Schema功能,为用户提供数据使用审计支持。


DataWorks数据安全权限管控产品

image.png

DataWorks 数据安全产品主要分为权限管控类和数据保护类两个部分。

DataWorks数据安全权限管控产品

image.png

DataWorks 安全中心2.0目前提供权限管控功能. 用户可以在DataWorks安全中心中针对特定的字段进行权限申请。在权限申请中可以设置特定的权限使用时间、权限申请理由以及使用范围。权限申请在被提交之后,将会出现在权限审批者的页面中. 在审批者的待审批页面中,可以看到申请者提供的详细申请信息。当审批按照拒绝流程处理时,申请人的列表里,也会看到申请人拒绝审批的状态。同时,在权限审批完成后,安全中心会提供表到人和人到表的权限查询功能,并可以在功能中直接进行权限回收。

DataWorks数据安全数隐私保护产品

image.png

差分隐私是目前在数学上可以证明隐私保护手段。将包含敏感信息的数据经过差分隐私脱敏处理后, 脱敏数据与原始数据之间呈现出数学上可描述的概率分布规律,如上图所示。红线是包含原始数据,黑线是经过脱敏的数据。这意味着, 在某些统计场景中, 可以用脱敏后的数据替代原始数据而不影响统计结果。

image.png

image.png

DataWorks差分隐私服务提供两个UDF函数,分别用来实现数据脱敏和脱敏结果的统计计算。由上图可以看出,经过DataWorks差分隐私服务脱敏处理后,脱敏数据与原始数据可以呈现出非常好的统计一致性。

阿里云飞天大数据平台安全体系

image.png

最后我们来回顾一下阿里云飞天大数据中台安全体系的主要内容。

首先,阿里云数据中心的安全基础设施为飞天大数据中台提供了物理层安全设施和安全管控流程,还提供了网络安全的支撑。

在这之上,MaxCompute平台安全系统通过访问控制子系统、应用程序隔离子系统、风控审计子系统和平台可信系统为企业客户提供大数据平台的完整性保障。这一层最新发布了VPC白名单、App端识别、权限系统2.0以及用户定义计算引擎的能力。还最新支持了InformationSchema1.0元数据能力和BYOK存储加密能力。

在往上一层, DataWorks 数据安全产品为用户的数据应用场景提供的数据防泄漏,数据防滥用以及数据防误用的能力。这一层主要包括权限管控类产品、数据保护类产品以及风险治理类产品。Dataworks最新发布了安全中心2.0以及差分隐私服务。

所有的产品和系统为用户数据的全生命周期安全提供了坚实保障。

MaxCompute产品官网 >>>
DataWorks产品官网 >>>

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
1月前
|
存储 安全 大数据
|
4月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
4月前
|
安全 关系型数据库 MySQL
揭秘MySQL海量数据迁移终极秘籍:从逻辑备份到物理复制,解锁大数据迁移的高效与安全之道
【8月更文挑战第2天】MySQL数据量很大的数据库迁移最优方案
781 17
|
5月前
|
分布式计算 安全 大数据
HAS插件式Kerberos认证框架:构建安全可靠的大数据生态系统
在教育和科研领域,研究人员需要共享大量数据以促进合作。HAS框架可以提供一个安全的数据共享平台,确保数据的安全性和合规性。
|
5月前
|
SQL 安全 大数据
如何安全的大数据量表在线进行DDL操作
如何安全的大数据量表在线进行DDL操作
74 0
如何安全的大数据量表在线进行DDL操作
|
6月前
|
机器学习/深度学习 自然语言处理 监控
金融行业的大数据风控模型:构建安全高效的信用评估体系
金融机构借助大数据风控提升信贷效率,通过数据收集、清洗、特征工程、模型构建与评估来识别风险。关键技术涉及机器学习、深度学习、NLP和实时处理。以下是一个Python风控模型构建的简例,展示了从数据预处理到模型训练、评估的过程,并提及实时监控预警的重要性。该文旨在阐述大数据风控的核心要素和关键技术,并提供基础的代码实现概念。【6月更文挑战第23天】
1049 8
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
289 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
44 2

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    DataWorks