办公与生产一体化:基于阿里内部实践的办公数据安全解决方案
内容介绍
一、阿里办公数据安全内部实践思考大图
二、数据安全真实案例
三、内部实践在阿里云上的落地情况
本次分享的主题是办公与生产一体化:基于阿里内部实践的办公数据安全解决方案,由阿里云办公安全产品专家梅杰分享。
去年在朋友的舞台上也给嘉宾分享过基于内部实践办公安全的内容。今年在此对可能出现的措施进行拆解介绍,主要分为三个部分。第一部分是关于阿里办公数据安全内部实践思考大图,通过内部实践的大部分内容,介绍对内部实践的思考。第二部分是数据安全的真实案例,介绍整体方案在内部的落实情况。第三部分是内部实践在阿里云上的落地情况。
一、阿里云办公数据安全管理
首先,在办公数据安全管理方面,很多老板有较多资源,购买了很多产品,但实际效果可能不佳。阿里内部也存在类似情况,不同业务有不同的数据核心,如高德的核心可能是pui的打点地图数据,淘宝在双11、618等活动中的核心是订单数及活动数据等。针对不同业务,需准确分类相关数据,这涉及资产规模问题。同时,还存在与员工相关的问题,管控策略可能影响员工办公效率,需在平衡安全策略的同时避免打扰员工,这是员工策略。此外,不同工种对安全策略有不同需求,需保证不同工种有不同规则,这源于工作岗位的差异。
1.办公安全的核心
在办公室安全管理中,应以核心资产为重点。从内部推论假设来看,如果员工设备被植入木马,黑客入侵,且设备上无敏感数据和核心生产系统账号密码,同时办公设备密码经过处理,那么黑客进入后最多只能将设备用作矿机,从数据安全角度看这种情况是可接受的,核心数据没有被泄露。因此,办公室安全的核心在于终端、应用和身份三个方面。
1.1终端
重点是最复杂的终端方面,随着办公室形式变化,除了常见的终端如传统PC,VDR、云桌面外,还出现了一些超级终端如钉钉、Teams等超级APP以及一些产品工具,这些都可能导致数据泄露。还有一些先进生产工具,比如CHATGPT,通义千问等三方的大模型数据。我们之前在阿里对一种产品做了一个统计,发现将近60%的阿里员工正在使用这种类似工具来辅助工作。
这很可能会引发数据泄露。例如,在给老板做业务汇报时,让chatGpt优化文档,可能就会导致敏感数据泄露。每年三四月份我们都会对阿里云做相关统计。可能会涉及很多同事合作方的信息,很多人会使用相关工具来提高效率,但这很容易导致数据泄露。这说明新兴生产工具诞生后,我们的产品安全策略和安全能力需要及时覆盖和响应,而目前市面上大部分产品可能无法做到这一点。这对于技术架构的挑战也很大。
1.2应用
在应用方面,互联网办公应用存在下载或者浏览。文件浏览后点击拍照可能导致敏感数据泄露和外发的风险。在阿里内部,内网应用网络网站都有暗水印,也有明水印。当你在核心技术层下载敏感文件的时候都会植入文件水印 。
1.3身份
在身份层面,除了对身份系列的管控权限外,针对外部企业办公区域资产保护中的外部因素也进行了相关管控。数据泄露不仅来自于内部还来自于外部的入侵。
如图是我们对于解决办公安全的整体思路图。基于以上情况,我们认为办公室安全的核心是安全运营,包括从全链路的防泄漏治理到资产发现、识别和防护。运营团队的核心工作是智能化分配,因为每天有大量数据产生,安全策略需基于数据分析实现审计和拦截。如果审计不准,就无法落地。业务原件就无法发送。
2.优化策略
在资产识别方面,我们经历了三个阶段。第一代运营是在5 - 6年前,安全运营人员到内外网收集文件,维护资产目录并确定敏感信息,但这种做法在管控方面无法落地,例如对于盒马的一些SOP文档(配方类不允许外发,而一些配置平台文档需要对外公布,比如一些商家),按照第一代做法处理会导致很高的误会率。
基于第一代,我们做了第二代分类分级引擎,事先投入人力与业务方沟通以获取安全能力。因为我们又分了如盒马、高德等,我们的产品已经深入到它们的业务领域,梳理出它们第一代的核心敏感数据资产,并将第一代的相关内容用于核心资产里进行训练和学习,这在识别效率和成功率上有很大提升。但第二代也有优缺点,优点是提升了识别能力,缺点是刚开始接入时安全运营人员与业务方沟通时间占用较大。
到第三代时,链路的核心是根据分离数据引擎提供的安全策略实现针对不同员工进行弹性管控。比如对外发文件是先发后审、先拦截后审批还是其他方式,以及从业务系统下载敏感文件是否允许等,都根据分类分级识别引擎打标来实现。
对于所有内部文件,不管是下载还是新创建的文件,从创建开始(称为地理名票阶段)就会打入一个创始ID叫尾翼ID,无论文件如何变化,都有文件属性特征,不管是存转复制还是压缩改名,创始ID都会跟随,它是文件数据的特征,可能会有水印打入,同时资产可全链路追踪,对识别引擎做反补。举个例子,比如今天识别出IOS级别的文件 ,发现在内部有一万到两万的员工里都有该数据的存在那么数据分类分级引擎就会优化到L2的数据,成为非敏感数据。
二、真实案例
1. 非办公渠道
第二部分是几个真实案例,讲述在内部如何处理。第一个案例是通过非办公渠道外泄数据。阿里管控严格,员工平时沟通工具受限,其他三方很难与阿里云用户沟通。此案例中,一名员工因淘宝订单价格高有作案动机,但有渠道无权限获取数据,便与有数据权限的人配合,这个人通过企业权限申请可访问订单数据库,频繁下载数据 ,通过加密手段外发数据(目前市场上大多数文件不能读取加密文件的内容)。加密后的数据通过外部设备传输,我们在数据落盘瞬间植入创始ID检测程序,在外发时通过特征发现异常并转出地址,及时阻止了数据售卖。
2.拍照截图
第二个案例是通过内网拍照截图外泄信息。当时有猎头想获取内部员工钉钉上的组织架构,员工通过电脑截图发给猎头,猎头通过组织数据定点挖人,不过安全团队收到了风险告知,其风险架构显示内部人员在频繁地与另一个公司进行交流,通过举报系统获得截图文件,通过按水印信息把外发人员的信息找到了。包括他的用户名提取账号在阿里云的运输账号和当时外发的MAC地址以及外发的时间。
针对这些情况,其核心在于内部治理。阿里采取事前、事中、事后三个阶段处理。事前进行治理判断和定期扫描,查看员工软件列表,同时指定可行软件名单,区分办公和非办公渠道,使用非办公渠道需主管报备。事中对危险网站和网盘类进行监控。基于分类分级引擎,针对敏感文件内容和渠道特征进行拦截是可调的。
在资产链路,终端扫描是贯穿全局的,除了首次扫描,后续新增和下载都会实时扫描企业文件特征,进行实时打标保证数据安全时效性。实效性的好处在于,比如今天员工外发,我们需要提前打标保证员工的使用体验。对于文件水印,刚刚提到对于文件下载屏幕应用等后续会讲解。关于员工如何平衡众多安全措施,我们有内部真实截图,可看到相关数据浏览量。在阿里的互联网内网环境下,我们在保证安全的同时注重员工使用体验,核心是针对高频场景优化。高频场景包括拦截场景,对网站访问、软件安装等有限制并可引导,进行提示和声导,涉及智能分级分类,第三阶段接入预训练内容。
进一步降低安全管理人员在出入建设数据安全阶段人力投入。这利用通信千义础模型并根据阿里业务特点比如电商物流微调生成小的业模型,满足业务需求,比如SOP场景,针对不同业务推荐不同控制策略。同时我们自研的SDS计策引擎基于预训练的大模型根据实体发现和上下文的分析,针对不同业务推荐不同分类分级策略。以前都是安全人原找业务中心对比核心业务列表,而第三代安全运营可扫描分析业务团队文件并推荐敏感列表,提高了效率,业务团队根据反馈制定管控措施并反补给预训练大模型,调节识别准确率。针对弹性,对于不同的业务对应生成的芯片数据,如果没有被审核,无法外发。但对于普通数据如L1L2数据可以正常外发,我们只做审计。
三、内部实践在阿里云上的落地情况
该产品已产品化四年,名为半官权平台sasi,在阿里安全产品列表中。这是一个OWE NES SQL的架构模型,员工只需安装即可获得从资产发现识别治理到溯源的所有安全能力,包括敏感数据防泄露从资产发现识别治理到最终的全链路溯源都可以在此APP上实现,同时具备离线接入能力,包括办公网接入、远程办公接入等,可与业内标准协议对接,员工从安全接入健全保护到使用内网应用只需一次登录,且具备全球化能力。在办公防内侵,一是防内鬼,二是防入侵。在这一块我们一直在做能力的更新和迭代。具备防病毒、漏洞修复、主动防御等核心技能。
在实际场景中,介绍事前、事中、事后三个阶段相关产品。
1.事前
举个例子,比如一些高危网站软件都需要治理,这里介绍域名的治理。事前通过黑白名单治理域名,基于白名单已被拦截的提示,白名单是已知网站,我们不明不知道它访问了哪些网站,这些网站可能是黑站,我们不能统一拦截导致员工办公被打扰,运维人员不可能全天实时进行反馈加白,那么就通过集成云浏览器解决员工反馈问题。此浏览器也叫远程云浏览器IBI。
通过云上隔离虚拟机或者隔离DOCOR系统,承载相关浏览器的访问。在页设的员工PC上图像视频流的传输,基石本地不可防也可以通过云端浏览器访问。即使访问的是一个钓鱼网站,下载的docor环境或者虚拟机也不会落在本地PC。
2.事中
事中(外发检测)通过第三代分类分级引擎检测和识别打标管控员工外发软件到技术通用软件,网盘网舍,有拦截提示和审批流程,告诉你这是危险的网站,大家可以看到蓝色按钮,这是潜网报备,会有对应的审批流,可以跟企业自身的审批流打通,通过主管审批后才能外发。统计表低以后策略灵活选择是先发后审计,通过管理员审计,也可以发现这些问题。
3.事后
最后的事后阶段,以水印为例,它是一种肉眼不可见的核心能力。目前阿里云所有业务都关注此业务并进行相关支付。阿里在这方面的优势在于,无论数据流转多少次,如7 - 8次的旋转压缩等情况,都能通过水印进行定位,这与其他厂商不同。因为很多数据泄露是由产品拍照泄露等原因造成的,当发生此类舆情事件时,我们可以通过水印定位到阿里内部相关事件,比如截图拍照外泄到微博的情况。我们之前只设置了暗语,后来反思后增加了水印,因为明水印有警示作用,且让用户知道我们有此能力。
4.产品情况
最后汇报产品情况,我们已正式发布包含数据溯源能力的产品,放泄露功能,同时还有三大核心能力即将发布。一是基于内部最佳实践的快速打击能力,二是第三代分类分级引擎技术的商业化应用(根据不同企业特点自动推荐独有的敏感数据分类分级策略),三是云浏览器相关能力。
员工白名单被拦截以后,有弹窗告知可以访问互联网的应用。今天可以通过云浏览器访问内网办公应用,因为离线有有端和无端的方式,无端大多时候用的是概率网关,它具有很大的风险。因为有一些广告策略比如水印,下载上传,复制粘贴,这些管控策略可能被员工通过GS删除,使功能失效。但云浏览器不同,它可以通过镜像传输,并且还无法看到它的服务代码,也不能进行处理。所以在无端场景里面,云浏览器安全等级更高。