数据保护伞—为MaxCompute平台数据安全保驾护航

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据安全是大数据发展道路上的重要挑战之一,数据,作为企业的核心资产,80%以上的核心信息是以结构化数据存储,包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件,将给企业带来经济和声誉上的双重打击,造成的后果将不堪设想。

近几年随着DT概念在国内持续普及,2016年中国大数据市场规模为168.0亿元,增速达到45%;预计2017-2020增速将保持在30%以上,中国信通院发布大数据发展调查报告(《中国大数据发展调查报告(2017年)》)中指出大部分企业均已意识到数据分析对企业发展的重要性。 59.2%的受访企业已经成立了数据分析相关部门。 35.1% 的受访企业已经应用了大数据,同时, 22.9%的企业计划将在未来 1 年内应用大数据。 企业应用大数据所带来的主要效果包括实现智能决策、提升运营效率和改善风险管理。进一步加大在大数据领域的投入。 一半以上的受访企业未来计划加大对大数据的投入,近20%的企业预计投入增长在50%以上。

在日益增长的大数据需求的背景下,企业在选择自己的大数据平台有以下关注维度,其中安全以71.4%高举榜首。

1


大数据安全管理的挑战

数据安全是大数据发展道路上的重要挑战之一,数据,作为企业的核心资产,80%以上的核心信息是以结构化数据存储,包含个人身份证号、银行账号、电话、客户数据、医疗、交易、薪资等极其重要又敏感的信息。一旦发生数据篡改、盗取、滥用等安全事件,将给企业带来经济和声誉上的双重打击,造成的后果将不堪设想。

在冗长而复杂的数据加工和使用链路中,企业安全管理团队如何识别企业的大数据平台中有哪些敏感数据,这些敏感数据在数据应用的链路中是如何被使用的,是否存在数据滥用和泄露的风险,在数据开发使用过程中如何加强个人隐私数据保护,相关监管机关的要求是什么,特别是在《网络安全法》以及相关配套管理规范发布后,对敏感数据的管理有了更具体的要求。这些问题都是大数据安全管理中需要应对的挑战。

以防范数据泄漏为例,目前市面上很多安全产品主要用于应对来自外部的威胁,但是缺少对来自内部威胁的有效识别和防范,而敏感数据泄露往往发生在内部,在DT时代中,企业内部的数据运维人员、数据开发人员、数据分析人员都有可能接触到敏感数据进而产生数据安全风险。

数据保护伞保护企业大数据资产安全

数据保护伞是蚂蚁金服数据安全和Dataworks联合打造的一款保护企业在MaxCompute数据平台上的数据资产安全产品。通过易上手的管理配置界面,企业安全人员可识别并管理敏感数据(无论是动态数据还是静态数据)的相关风险。满足各个场景的数据安全要求,从基本合规性到综合数据保护。这种多层解决方案包括自动化数据风险识别、动态数据保护和直观的数据管理驾驶舱,进而可适应敏感数据环境中的变化。

2


为了实现有效的数据保护,企业需要了解如何才能全面地保护数据。数据保护伞有助于安全管理团队实现以下目标:
  • 智能发现、分类敏感数据并发现不合规的静态数据风险
  • 了解谁在什么时候什么地点使用什么方式访问数据、观察异常并防止数据损失
  • 迅速分析数据使用模式,利用UEBA风险识别模型和蚂蚁大数据安全专家规则识别风险,以便审计并抑制风险
  • 提供统一脱敏SDK,根据保护伞对敏感信息的定义和脱敏策略的制定,智能识别系统展示内容中存在的敏感信息并进行脱敏,达到保护敏感信息泄露的目标,并能够将企业内部的脱敏水位进行统一管理,方便业务在监管要求需要对脱敏方式进行调整时进行统一调整,在保障安全水位的同时极大地提升了安全管理效率。

数据保护伞帮助企业的安全管理人员在易于上手的界面管理自动发现并分类敏感信息。安全人员可利用系列步骤发现包含敏感信息的project。为了保障安全策略的执行以及保护敏感数据,数据保护伞持续对访问敏感数据的人员进行监控。

除传统数据监控外,还具备异常值检测功能,数据保护伞充分利用机器学习和UEBA行为异常检测模型对数据操作日志进行智能分析,从纷繁众多的数据操作中识别恶意操作行为。

3


这种基于行为轨迹变化进行智能分析的风险识别模块对风险发现效率有很大的提升。根据每次数据访问的具体上下文信息“人物、事件、地点、时间和方式”,使用深度机器学习算法来检测行为有异于正常操作的行为模式。借助一种适应性学习流程,通过历史正常活动模式与新的活动进行比较。其直观的用户界面有助于指出异常状况,这样安全管理员就可深入研究其根本原因。

使用数据保护伞进行安全管理

内置13种内容识别模式,包含了目前大部分通用的敏感信息,识别准确率达到99%。

4


对识别出来的数据可以自己复查,增加对数据识别的信心。

5


敏感数据自动识别,敏感数据分布一目了然,对数据资产管理更有信心。

6


通过对敏感数据的访问,发现异常行为,对异常行为进行下钻分析,找到操作风险点。

7


用户反馈

数据保护伞目前已经在天弘基金、众安保险等多家MaxCompute用户进行灰度试用,完成了对MaxCompute平台上的数据资产安全管理加固,将以前MaxCompute上数据安全黑盒问题解决掉,使用数据保护伞不仅可以协助企业做好数据资产的安全管理,更能够直接采用通过蚂蚁金服实践过的数据安全管理方法论,让用户在数据安全管理效率上有极大的提升,即便是没有专业数据安全管理人员的中小企业,也能够通过明确的引导和易上手的管理流程让非安全专业人员进行数据安全管理。极大地减低了数据安全应用的门槛。

众安保险 – “我们安心回家陪家人过年的保障”

痛点:
“数据仓库中有大量数据,数据的价值在于开放使用与流通,如果不使用则只是一堆数字,毫无价值。从2014年的几人到2017年年底的400多人,众安使用MaxCompute的同学越来越多,我们欣喜于仓库的价值输出的同时,也越来越感觉数据安全会成为我们下一个巨大隐患。
仓库中有8万多张表,600多PB的数据存储,近2PB的物理存储,这期中哪些表包含敏感数据,包含什么样的敏感数据,这些表被哪些人在使用过,使用的过程中是否生成了新的表,这些敏感数据是否有跨库流程,有没有被下载至本地,是哪些人在操作,在什么时间点操作的,在哪台机器上操作的,涉及到了多少数据量 ......这些问题一直在困扰着我们。”

使用数据保护伞后:
“年前阿里的攻城狮让我们参与到数据保护伞的灰度体验中,数据保护伞能够自动智能识别哪些表涉敏,存了哪些敏感数据资产,敏感程度是几级,哪些人在使用这些敏感数据,是否存在恶意获取等安全风险,能够让业务安全应用得到有效的保障。哇,简直不要太嗨皮,这下可以安心地过狗年了。”

天弘基金 – “让我们对云上大数据平台的安全管控有信心”

“自从我们开始使用数据保护伞,它能够轻易地解决一系列数据安全挑战。精确地识别敏感数据,很好地落地公司数据分级、分类原则。对于我们关心的高危访问行为,进行识别和可视化展示。面对发现的数据不合规问题和数据操作风险,我们能够有针对性地采取措施,相比于以前人工梳理,人工抽查,使用数据保护伞不仅仅提升了我们的安全检查效率(以往每个季度需要花1,2周进行数据资产盘点和识别,现在全部自动化了,随时都可以看到最新的敏感数据资产分布),还提高了数据安全覆盖面,特别是针对一些数据操作风险的场景覆盖,让我们对云上大数据平台的安全更加有信心。”

如果您的企业需要使用“数据保护伞”产品对您的MaxCompute平台数据进行安全保护,可在阿里云官网提交工单,会有工程师与您取得联系,做进一步沟通。

欢迎加入“数加·MaxCompute购买咨询”钉钉群(群号:11782920)进行咨询。

_

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之同步Holo数据到ODPS的过程中,出现部分数据的值变为星号(),是什么原因
|
18天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
38 1
​「Python大数据」词频数据渲染词云图导出HTML
|
8天前
|
SQL 机器学习/深度学习 分布式计算
MaxCompute产品使用合集之数据删除之后,是否支持回滚
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之同样的表和数据,在PolarDB执行LEFT JOIN查询可以得到结果,但在MaxCompute中却返回为空,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
9天前
|
分布式计算 DataWorks API
DataWorks产品使用合集之使用REST API Reader往ODPS写数据时,如何获取入库时间
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
8天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之整库离线同步至MC的配置中,是否可以清除原表所有分区数据的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之如何将数据映射成Holo表的语句
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
8天前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之使用sql查询一个表的分区数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
12天前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute