从数据风险出发的云上数据安全最佳实践
内容介绍
一、数据泄露
二、以云为基、实现数据全链路可视可控的数据安全机制
一、数据泄露
1.实况
今天一直在讲数据安全,无论是合规还是数据泄露,目前大部分企业在做数据分级,这可能是大家了解最多的。今天之所以要讲数据分级是因为数据泄露问题很严重。从 2020年到 2023 年这短短几年间,全球企业投入很多钱解决数据泄露问题。再看中国,上半年数据泄露增长了 55.58%。为什么投钱还是解决不了数据安全问题,数据泄露为何还持续发生?这是所有企业都困扰的问题。
2. 原因
IBM 在报告里也清楚地写明了数据容易泄露的原因:第一个是 25%的数据泄露源于勒索,存在各种漏洞;
第二个是 82%的数据因来源复杂环境,包括云环境或各种 IDC 环境,在圆周会议讲的云原生三体,由于环境复杂难以提升安全性,攻击者就会利用。再看整个数据泄露治理,就算发现了数据泄露,治理周期是 277 天,而攻击者可能在 30 分钟内就完成攻击。里面涉及到非常多访问主体复杂客户多,治理难度大。
比如说今天一个企业里有上百万或上亿用户,肯定不敢随便发布产品,治理周期会逐渐加长。还有最核心的问题是所有业务都有身份,像身份证丢了可以去派出所办理,但在应用系统中常用AK,很多企业把大量文件放在配置中心,如阿波罗、拉布斯等,若丢了可能就得让业务下线再重新上线,这难度很大。若业务说风险大不许操作,就可能继续发生数据泄露,这就是治理难的原因之一。
其次,数据量太大,动辄 TB 级。10 年前有 TB 级数据的企业没几家,现在随便一个企业都可能有。数据存储种类多、量大,敏感数据发现难,而攻击者却容易发现漏洞。在传统网络架构中,做安全的人习惯用户到业务再到 IP 最后到数据的架构,但如今数据安全难做好。比如waf基本都在云网络之上,以前数据没那么多、没那么便捷时,数据放在 ESS 里、数据库放在 ESS 里,现在数据和存储与应用脱离,大量数据泄露可能来自底层数据不经过网络出口,而是通过 ABA 接口或内部办公网,数据流转非常复杂,导致看不到且管控难。安全最痛苦的事情就是知道数据泄露但推不动业务去改,没办法解决。
整个行业的数据安全产品存在缺失状态,企业也不知道数据被谁侵蚀、被谁正在用、被谁放在哪。其次是加密问题,有很多加密公司,但加密并不容易,买台加密机做个 SDK 支撑也有性能损耗,而且很多人不懂加密也不敢搞,这带来很多困难。
二、以云为基安全机制
1. 资产可控可见
在传统架构中这些困难难以解决,而云能提升基础安全水位。首先,云能让资产可控可见,数据接口基本是标准的,即API,基础资源权限好管控。在线下 IDC 机房管控身份或应用凭据体系较难,而云上通过云基础资源能让数据可见,还能提供更多数据可视,平均使用业务的访问策略和行为管控、身份上都是统一的,上层非常透明,数据生命周期容易把握。
2.数据安全中心
云安全的数据安全中心在于:
第一,以数据为中心,探讨风险在哪里;
第二,图中有数据和资产是因为数据永远有存放处,这里做到一键授权全自动化产品。在分类分级和数据可视方面,阿里云为全球用户提供免费分类分级额度,让用户知道云上重要或敏感数据在哪里,进行有效治理,这与其他友商不同。在处置方面,集合了身份、应用以及整个数据层面进行识别,做整个威胁的预警和素描。
为了让阿里云上的用户享受安全能力,有免费的证书,阿里云还为 90 多款云产品提供默认的透明加密功能,在此基础上提供数据拦截和数据认证等基础服务。整个数据安全中心产线并非独立产品,以数据风险为切入点,看风险到底是什么,比如数据是否被偷、身份凭证泄露后数据是否被持续访问。
从识别入手,以风险或预警为锚点,让大家只关注风险和预警,之后持续提供云原生的处置方案或治理方案,让用户使用更简单。这里面用到云原生,后面会详细讲解细节。
当数据流转起来时,虽然无法阻止业务数据流转,但有几件事可以做。
3.治理闭环
首先,数据流转会有行为和风险,将流转行为风险进行具象和定义,从存储库中自动化识别数据,这是免费功能,让用户看到敏感数据在哪里以及如何治理,监控整个数据流转行为。在数据使用方面,开发人员比较清楚,代码开发时前端应用调用数据库或其他资源会用账号口令或凭据,这套身份是否被劫持、认证以及何时调用数据资源都是清晰可见的。在这个上层行为中,通过技术身份和调取数据源来看数据泄露行为是否异常。比如 AK 泄露后持续调用敏感数据,传统做法可能是拦截 AK、文件或 IP,但可能影响开发且 AK 无法轻易处理,只能停业务让开发人员处理。
4.自动化、智能化、持续建设数据安全治理能力
而现在提供了云原生方案,从 AK 出生的地方联动轮转,提供对请求 IP 的阻断以及对敏感文件请求的管控,真正做到从数据行为发现到泄露后有准确手段处理,这与原来的数据安全关系不同。原来更多的是审计。
我们的做法如下:首先是自动化识别。识别之后,通过监测身份和其特征的异常以及数据的风险。这里面做了很多工作,第一个是有整个风险入侵的资格探测。
第二个是监测风险情况,包括 AK 或者授权行为与账号管理不一致。以前有个问题, AK 里面有个 policy(策略),攻击者会利用 policy 设置的差异化进行攻击,获取超级管理员权限去窃取所有数据或资源,这在网上很容易找到方法,无论是SDS还是AK还是其他方式,只要被发现就很容易被攻击。所以我们制定了规则,把数据的行为、凭据泄露的行为以及身份对应的数据情况做了整个决策链路。预警出来后,结合数据流转的异常行为和异常配置,做整个风险的处理,真正预警到每一个客户。
预警之后要进行处置,很多厂商讲到最后处置是客户的事,我们希望给用户提供原生的处置和联动方案。从风险处置和安全线出发,联动所有云产品进行处置,包括联动网络安全防护waf,ram等产品,真正做到处置动作,让威胁持续降低或者数据泄露时间缩短。另外是质疑。我们在很多客户那里会遇到要求拍照或进行实名认证的情况,最多的实名认证就是拍拿着身份证的正反面照片,让人纳闷为什么正面不能认证非得要正反面。
在银行、车企、4S 店等有大量客户的身份证照片,只要去消费就要认证,但认证后业务方似乎也没有特别好的办法处理这些照片,所以会看到大量图片泄露。我们做的一件事是通过对所有证照的自动化识别,针对非结构化(照片或文本类)的证照照片进行规则化处置并打码。打码分两种,第一种是实时打码,当 4S 店员工想确认某人是否认证过或注册了车机系统,在查看时只有部分显示或进行打码处理,业务调用时也不会知道完整信息。
还有一种方式是在与供应商合作或大数据运用过程中,将结构化或非结构化的数据中的敏感信息脱离出来进行训练,因为模型不需要知道身份证号等敏感信息。其次是路测数据方面,比如智能驾驶有大量路测数据,摄像头在路上会扫到人脸等生物特征,将这些生物特征提取后进行处理,能保证企业使用时图片安全,即使泄露也不会有大问题,比如身份证号泄露但打码后就不会有大问题。
从本质上解决数据泄露问题。数据加密很困难,加密厂商可能不太愿意看到这种情况。因为加密是个非常困难的事情,用 SDK 或加密接口将加密集成到应用程序中会影响应用程序性能,加密有硬件性能损耗。而且国内很多人对加密有疑虑,加密有异常后容易有异常。很多企业在做这一块时非常谨慎小心。
针对数据加密困难的问题,我们通过与数据库厂商合作实现了字段级加密。字段级加密是指对数据库的某一列或敏感字段进行加密,无需应用改造。在数据库中找到敏感数据勾选,导入密钥即可完成加密。在加密后,我们可以支持所有数据库账号口令的权限策略配置。比如前段时间有购物中不允许所有 DBA 看到手机号,在 DBA 运维操作权限里配置加密且不允许解密,使这一列数据成为密文。当有业务需要使用这个字段时,给应用程序授权,应用程序获取数据时就是明文。
整个加密形式是在数据库内核里进行,而非采用代理方式。因为代理一旦挂掉就无法考虑后续情况,而我们是从数据库引擎做起,深入到存储层。当数据库上层有用户请求,ecs应用到数据库进行查询或结果输出时,会在内置网关里按照策略执行加密解密操作。这样使得整个业务无需改造,也不会出现稳定性问题,是一个非常有效的解决方案。
5.更多数据安全防护水位
针对这个问题,整个数据安全产业通过识别、检测和相应处置,形成了自主闭环的治理方案,不再只是做分类治理,最终实现了自动识别风险和预警的全套治理方案。
让企业上云后,能够感受到云上数据安全更易理解。目前这些产品的功能已经在线上,大家可以随时试用,有免费版,为全球用户提供免费能力。我们希望整个行业和各位用户的数据不被泄露。所以我们为云上所有客户提供了新增的免费功能,包括 AK 泄漏、凭据泄漏的检测能力以及法律痕迹的能力等。
其次,为降低用户在数据安全上的持续投入,参考一份报告中全球都在大量投入资金的情况,我们让中国企业少花钱,下调整个基础费用,从企业版按模块收费下降 75%,按需购买,把选择权交给用户,让企业真正享受到云上按需所取的能力。此外,面向国际站发布了整个能力升级,辅助中国企业出海以及外资客户,进一步降低在阿里上出现安全问题的风险。今天的分享就到这里。