近日,中国信息通信研究院安全所开展了“数据安全产品能力验证计划”测评,阿里云成为首家通过数据分类分级进阶级认证的云厂商。至此,阿里云数据安全中心已经累计通过数据脱敏、数据库审计、数据分类分级等多项能力的官方测评。
在信息数字化时代里,黑客的攻击越来越组织化、目的化、经济化,直指企业核心资产:对数据的盗取、加密和勒索。根据IBM调研显示,企业数据泄漏防护成本逐年增加,2022年已经达到435万美金,巨大经济支出的背后是依旧千疮百孔的防御系统。
数据,作为业务的核心、组成与结果,在人体中就像是血液一般的存在,当我们试图去厘清其脉络时,却发现它无处不在,难以衡量。自2021年《数据安全法》 颁布执行以来,相关的企业数据安全解决方案层出不穷,大浪淘沙,在热度逐渐回归的当下,企业需要的是可落地执行的方案。
阿里云数据安全中心,自2018年以来,一直深耕于云环境下的数据安全研究。不同于空泛的“保护”,以数据为中心,风险为导向,建设基于数据域的分类分级防护体系,落地从感知、态势管理、治理到防护的数据安全治理,才是阿里云数据安全的探索方向。
(阿里云云上数据治理全流程)
以资产为核心的数据感知
感知,是一个拟人化的词语,人类靠着视觉、听觉、触觉、味觉等能力来时刻感受,知晓自身所处的环境与现状。对于企业而言,知道数据资产有哪些,存放在什么样的位置,哪些是敏感数据,哪些是可公开数据,并依据此绘制数据地图,是数据安全治理的第一步,但机器并非人体,能让其协调的联动互通,整体感知,隐藏着诸多难点。
01.数据资产的全面性
在线下,数据往往呈现孤岛状态,彼此之间难以统管统查,割裂的接入不仅让全局混淆不清,也是个缓慢且复杂的过程,需要一个一个找DBA收集连接凭据,并单独录入。而云平台天然的统一底座与API接口,让数据接入的广度和效率都极大提升。阿里云数据安全中心现已接入OSS、RDS、MaxCompute、MongoDB等8类云上主流存储产品,并实现统一扫描,集中展示,有效发现影子数据。同时,云底座的耦合性,可实现各云产品的一键获取+一键授权,对于在云上拥有数百上千数据库实例的客户,将会极大节省运维工作量。
02.数据资产识别的准确性
如果说数据的接入量级决定着资产地图的全面性,那么数据识别和分类分级的准确度,则决定着地图是否真的可用。
识别准确性的提升并不容易,首先在技术上,需要持续迭代特征和模型、以及对应的数据校验规则。举个例子,对于“工资单”这个敏感性极高的数据类型,它是人名+数字+年月等等的集合,在不同的公司/行业里的叫法和格式也不一样,相对应的特征越多,识别也就越准确。此外,通过组合特征的判定,例如交叉判定身份证、员工ID、员工入职年份等信息,能更细粒度的进行数据筛选。
阿里云数据安全中心在覆盖云上多数据源的情况下:
支持200种文件类型、500种以上的敏感数据识别能力
对于新型数据特征,可实现自动实时添加,持续提升模型丰富性
在算法上引入多类数据校验机制:身份验证码、基于Luhn算法的银行卡校验规则、IMEI验证码......识别的当下即可判断其正误,并非仅依赖于数据格式。
但通用的识别模型再准确,也难以覆盖行业的特殊性,正所谓“隔行如隔山”,数据身上也有强烈的行业烙印,例如“行驶轨迹”“车辆工况”“车辆基本属性”等汽车行业专属敏感词,在通用识别模型中很可能会被直接忽略。阿里云数据安全中心持续和各行头部客户共创,并依据行业合规监管标准,提供给客户“1+N”可选识别模板,覆盖个人信息(GB/T 35273)、车联网、金融、能源、互联网等多类型,并通过法律条文、行业规范、企业制度等丰富的上下文信息,对数据敏感度进行等级划分,实现以资产视角为中心的重要度排序。
同时阿里云数据安全中心也支持客户自定义分级标准,为数据风险处理优先级提供细粒度判断依据。
03.数据的量变到质变
拿当下最火的LMM大模型举例,2018年GPT诞生之际,其预训练数据量约5GB,参数量大约1.17亿,而到2020年,GPT迭代到第三代,其商业化成果也正是一举引爆市场的Chat-GPT,训练数据量级已达到40GB,参数量约15亿,而到GPT-4,据外媒SemiAnalysis揭秘,训练参数量级达到1.8万亿,是最初训练量级的15384倍。
对于数据识别模型,特别是非结构化数据,量变不一定会产生质变,但准确度提升一定离不开大规模的数据识别量。阿里云数据安全中心,自上线以来,平均每月自动化分类分级4.5亿份文档,总数量已达54亿+。
针对结构化数据:新增的识别特征会自动化更新,保证模型识别的准确性;
针对非结构化数据:在模型之外,辅助以OCR、NLP等技术,并通过关联比对,提升准确度。
以风险为核心的态势管理
通过数据识别和分类分级,企业以资产为核心,绘制云上数据大图,并在大图的指导下,对数据面临的风险做统一管理。
阿里云数据安全中心于今年推出DSPM(数据安全态势管理)能力,以GB/T 37988-2019《信息安全技术数据安全能力成熟度模型》为依据,定义了8种常见的数据风险场景,150+检查项,形成以风险为核心的运维态势管理。
不同于线下的各自为政,云上原生化的优势,使得多产品联动、多策略可统一拉齐。阿里云数据安全中心通过获得授权API接口,将8类不同数据产品的监控统一,并根据阿里云数据安全最佳实践形成的检测基线,对各类数据资产实现统一的扫描检测,包括身份权限、敏感数据、访问控制、数据备份、数据传输加密等多条检测项,用户在单一的控制台即可实现全域数据态势监控,极大降低企业运维复杂度。
以加密为基础的数据治理
目前对于数据风险的核心治理手段有两类:加密和权限控制。
对数据的治理并非单点单次,而是在持续性数据识别和风险识别的基础上,综合判断资产重要性与风险危害性,及时进行风险治理,防止潜在的数据泄漏。阿里云为云上企业提供从底层的身份权限管控、KMS密钥管理、数据容灾备份,到上层的业务数据脱敏、SSL证书等系列安全能力,协助客户全面收敛安全风险。
以事件为核心的动态监控
全国著名咨询机构Gartner曾在报告中写到,到2023年,至少99%的云安全故障将是客户的错。以上三个流程核心聚焦于事前的安全加固,旨在最大化收敛「99%」的由配置错误、影子资产、权限错误等问题带来的风险。但从攻击者视角出发,无论事前的防护有多么牢固,仍有「1%」的概率直取黄龙,在事中和事后及时的告警也必不可少。
阿里云数据安全中心提供给客户全面的数据审计能力,通过云上广泛的数据产品接入量(包含关系型数据库、非关系型数据库、大数据、非结构化数据库、自建数据库等)以及基于机器学习的动态UEBA分析引擎,辅助以各类规则,综合研判用户行为,及时阻断风险。
近期,在阿里云内部蓝军演练中,阿里云数据安全中心通过审计记录分析、行为基线对比、UEBA动态风险分研判等操作,成功发现某近两月无访问和下载行为的某OSS下Bucket数据集,突然出现访问及下载行为,通过对IP地址、访问时间、访问地点、行为等多重信息的交叉比对,成功发现并阻止了攻击队的数据入侵行为。
数据安全治理
敏感数据分布与使用管理
数据安全态势感知
阿里云数据安全中心通过数据资产识别、态势感知、风险治理以及事件监控四大核心思路,构建了可落地的安全治理闭环流程,覆盖数据安全治理、敏感数据使用与防泄漏、数据安全态势感知、数据统一安全管控等多个场景下的安全防护,在汽车、金融、能源、互联网等多个行业均有落地,保护广大企业的云上核心资产——数据。
阿里云数据安全中心现已开放免费试用,点击【阅读原文】即可了解更多。
链接:https://www.aliyun.com/product/sddp?utm_content=g_1000378702