数据保护伞—为MaxCompute平台数据安全保驾护航

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数据安全是大数据发展道路上的重要挑战之一,数据,作为企业的核心资产,80%以上的核心信息是以结构化数据存储,包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件,将给企业带来经济和声誉上的双重打击,造成的后果将不堪设想。

近几年随着DT概念在国内持续普及,2016年中国大数据市场规模为168.0亿元,增速达到45%;预计2017-2020增速将保持在30%以上,中国信通院发布大数据发展调查报告(《中国大数据发展调查报告(2017年)》)中指出大部分企业均已意识到数据分析对企业发展的重要性。 59.2%的受访企业已经成立了数据分析相关部门。 35.1% 的受访企业已经应用了大数据,同时, 22.9%的企业计划将在未来 1 年内应用大数据。 企业应用大数据所带来的主要效果包括实现智能决策、提升运营效率和改善风险管理。进一步加大在大数据领域的投入。 一半以上的受访企业未来计划加大对大数据的投入,近20%的企业预计投入增长在50%以上。

在日益增长的大数据需求的背景下,企业在选择自己的大数据平台有以下关注维度,其中安全以71.4%高举榜首。

1


大数据安全管理的挑战

数据安全是大数据发展道路上的重要挑战之一,数据,作为企业的核心资产,80%以上的核心信息是以结构化数据存储,包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件,将给企业带来经济和声誉上的双重打击,造成的后果将不堪设想。

在冗长而复杂的数据加工和使用链路中,企业安全管理团队如何识别企业的大数据平台中有哪些敏感数据,这些敏感数据在数据应用的链路中是如何被使用的,是否存在数据滥用和泄露的风险,在数据开发使用过程中如何加强个人隐私数据保护,相关监管机关的要求是什么,特别是在《网络安全法》以及相关配套管理规范发布后,对敏感数据的管理有了更具体的要求。这些问题都是大数据安全管理中需要应对的挑战。

以防范数据泄漏为例,目前市面上很多安全产品主要用于应对来自外部的威胁,但是缺少对来自内部威胁的有效识别和防范,而敏感数据泄露往往发生在内部,在DT时代中,企业内部的数据运维人员、数据开发人员、数据分析人员都有可能接触到敏感数据进而产生数据安全风险。

数据保护伞保护企业大数据资产安全

数据保护伞是蚂蚁金服数据安全和Dataworks联合打造的一款保护企业在MaxCompute数据平台上的数据资产安全产品。通过易上手的管理配置界面,企业安全人员可识别并管理敏感数据(无论是动态数据还是静态数据)的相关风险。满足各个场景的数据安全要求,从基本合规性到综合数据保护。这种多层解决方案包括自动化数据风险识别、动态数据保护和直观的数据管理驾驶舱,进而可适应敏感数据环境中的变化。

2


为了实现有效的数据保护,企业需要了解如何才能全面地保护数据。数据保护伞有助于安全管理团队实现以下目标:
  • 智能发现、分类敏感数据并发现不合规的静态数据风险
  • 了解谁在什么时候什么地点使用什么方式访问数据、观察异常并防止数据损失
  • 迅速分析数据使用模式,利用UEBA风险识别模型和蚂蚁大数据安全专家规则识别风险,以便审计并抑制风险
  • 提供统一脱敏SDK,根据保护伞对敏感信息的定义和脱敏策略的制定,智能识别系统展示内容中存在的敏感信息并进行脱敏,达到保护敏感信息泄露的目标,并能够将企业内部的脱敏水位进行统一管理,方便业务在监管要求需要对脱敏方式进行调整时进行统一调整,在保障安全水位的同时极大地提升了安全管理效率。

数据保护伞帮助企业的安全管理人员在易于上手的界面管理自动发现并分类敏感信息。安全人员可利用系列步骤发现包含敏感信息的project。为了保障安全策略的执行以及保护敏感数据,数据保护伞持续对访问敏感数据的人员进行监控。

除传统数据监控外,还具备异常值检测功能,数据保护伞充分利用机器学习和UEBA行为异常检测模型对数据操作日志进行智能分析,从纷繁众多的数据操作中识别恶意操作行为。

3


这种基于行为轨迹变化进行智能分析的风险识别模块对风险发现效率有很大的提升。根据每次数据访问的具体上下文信息“人物、事件、地点、时间和方式”,使用深度机器学习算法来检测行为有异于正常操作的行为模式。借助一种适应性学习流程,通过历史正常活动模式与新的活动进行比较。其直观的用户界面有助于指出异常状况,这样安全管理员就可深入研究其根本原因。

使用数据保护伞进行安全管理

内置13种内容识别模式,包含了目前大部分通用的敏感信息,识别准确率达到99%。

4


对识别出来的数据可以自己复查,增加对数据识别的信心。

5


敏感数据自动识别,敏感数据分布一目了然,对数据资产管理更有信心。

6


通过对敏感数据的访问,发现异常行为,对异常行为进行下钻分析,找到操作风险点。

7


用户反馈

数据保护伞目前已经在天弘基金、众安保险等多家MaxCompute用户进行灰度试用,完成了对MaxCompute平台上的数据资产安全管理加固,将以前MaxCompute上数据安全黑盒问题解决掉,使用数据保护伞不仅可以协助企业做好数据资产的安全管理,更能够直接采用通过蚂蚁金服实践过的数据安全管理方法论,让用户在数据安全管理效率上有极大的提升,即便是没有专业数据安全管理人员的中小企业,也能够通过明确的引导和易上手的管理流程让非安全专业人员进行数据安全管理。极大地减低了数据安全应用的门槛。

众安保险 – “我们安心回家陪家人过年的保障”

痛点:
“数据仓库中有大量数据,数据的价值在于开放使用与流通,如果不使用则只是一堆数字,毫无价值。从2014年的几人到2017年年底的400多人,众安使用MaxCompute的同学越来越多,我们欣喜于仓库的价值输出的同时,也越来越感觉数据安全会成为我们下一个巨大隐患。
仓库中有8万多张表,600多PB的数据存储,近2PB的物理存储,这期中哪些表包含敏感数据,包含什么样的敏感数据,这些表被哪些人在使用过,使用的过程中是否生成了新的表,这些敏感数据是否有跨库流程,有没有被下载至本地,是哪些人在操作,在什么时间点操作的,在哪台机器上操作的,涉及到了多少数据量 ......这些问题一直在困扰着我们。”

使用数据保护伞后:
“年前阿里的攻城狮让我们参与到数据保护伞的灰度体验中,数据保护伞能够自动智能识别哪些表涉敏,存了哪些敏感数据资产,敏感程度是几级,哪些人在使用这些敏感数据,是否存在恶意获取等安全风险,能够让业务安全应用得到有效的保障。哇,简直不要太嗨皮,这下可以安心地过狗年了。”

天弘基金 – “让我们对云上大数据平台的安全管控有信心”

“自从我们开始使用数据保护伞,它能够轻易地解决一系列数据安全挑战。精确地识别敏感数据,很好地落地公司数据分级、分类原则。对于我们关心的高危访问行为,进行识别和可视化展示。面对发现的数据不合规问题和数据操作风险,我们能够有针对性地采取措施,相比于以前人工梳理,人工抽查,使用数据保护伞不仅仅提升了我们的安全检查效率(以往每个季度需要花1,2周进行数据资产盘点和识别,现在全部自动化了,随时都可以看到最新的敏感数据资产分布),还提高了数据安全覆盖面,特别是针对一些数据操作风险的场景覆盖,让我们对云上大数据平台的安全更加有信心。”

如果您的企业需要使用“数据保护伞”产品对您的MaxCompute平台数据进行安全保护,可在阿里云官网提交工单,会有工程师与您取得联系,做进一步沟通。

欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号:11782920)进行咨询。

_

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
290 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
44 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
86 1
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
154 1
|
1月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
164 3
【赵渝强老师】基于大数据组件的平台架构
|
25天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
63 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
58 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
66 2

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    DataWorks