金融行业数据实时共享场景下的动态脱敏技术

简介: 在信息化大潮愈演愈烈的当下,数据和信息不啻为一种“新型资本”,尤其对于数据资产量巨大,操作复杂程度高、系统性能要求高的金融领域来说,数据资产发挥着越来越突出的价值,和传统资本具有的特性相似,数据资产的价值在流转、共享、整合利用中逐渐显现并越发放大。

“资本只有在流动中才带来价值,单纯存放起来只会贬值”。


在信息化大潮愈演愈烈的当下,数据和信息不啻为一种“新型资本”,尤其对于数据资产量巨大,操作复杂程度高、系统性能要求高的金融领域来说,数据资产发挥着越来越突出的价值,和传统资本具有的特性相似,数据资产的价值在流转、共享、整合利用中逐渐显现并越发放大。


举例来说:银行数据部门掌握的用户储蓄和消费信息,对内共享可以完善业务部门的信息化系统开发;对外则可为政府部门、征信机构等提供有效参考;甚至可以成为零售或制造业制定战略目标的有效参考依据。


然而数据的共享和流转带来的红利,远远无法冲散遮盖在数据保管者和拥有者心头的乌云。这种担忧来自对敏感信息在共享环节可能发生的泄密风险,更是来自敏感数据“合理使用”并且“安全防护”两者之间的矛盾。于是,数据脱敏技术和专业脱敏产品应需而生,这类专业产品可以按照不同数据使用场合,对敏感数据进行变形处理,在脱敏处理的同时,不改变数据的类型、格式、含义、分布等使用特征,让用户不再因为深陷对安全的顾虑,而不得不割舍掉数据分享和流转带来的价值。


目前,脱敏技术中的静态脱敏技术常见于银行等金融领域。静态脱敏技术的应用,其价值在于打造一份全新的、“高度仿真”的数据库,供非安全环境下使用。凭借着低门槛、易部署等特性,静态脱敏技术率先被用户所接受。在近两年,这种数据处理方式先后被银行、证券、保险、社保等行业所采纳,成为数据共享中的重要工具。


但当面对不同身份的访问者,如何实时提供不同的脱敏数据?


某银行搭建的数据集中管理平台中,客户信息、账务信息、银行卡信息等全部集中在大数据分析环境中,面向内部提供数据查询分析服务,面向外部应用端、征信机构、政府部门等则提供数据检索接口。由于不同访问者的身份、权限差异,同样的数据对不同访问者的脱敏策略各不相同。为了实时、安全地向各方提供数据,依靠静态脱敏技术已经不再合适。此时,动态脱敏服务器便成了连接数据中心和外界使用者之间的通道,对不同身份、不同权限的用户配置实时数据脱敏规则,让其可以恰如其“份”的访问数据。


数据的动态脱敏遵循着一套与静态脱敏完全不同的技术路线,今天,我们重点了解一下数据动态脱敏技术,为金融行业未来的技术应用提供一些借鉴思路。


数据动态脱敏,需要满足一个重要的能力:针对目前各种主流的数据库中的敏感数据,在用户使用各种第三方客户端工具或应用程序实时访问数据过程中,能够依据用户角色、职责和其他 IT 定义规则,对敏感数据进行屏蔽、遮盖、变形处理,来“隐藏”对敏感数据的访问,从而有效的防止敏感数据的泄漏。 


国内动态脱敏技术的演进路线


长期以来,提起动态脱敏技术,能力称霸者始终逃不过Informatica,国内外其他厂商在动态脱敏技术领域都难以望其项背,由此可见这一技术的复杂度和成熟产品的研发难度非同一般。2014年,Informatica凭借其DDM产品位居Gartner数据脱敏的领导者象限。


对于国内数据库安全厂商而言,有了其他安全产品的深厚研发积累,朝着数据动态脱敏技术进发也变成一种发展惯性。2016年,国内已经有厂商开始基于长期的数据库防火墙产品所积累下来的数据库协议分析、协议改写、语法分析、SQL语句改写等技术,成功推出数据库动态脱敏产品,并在真实的用户现场,通过与Informatica DDM产品的多次比拼,积累下丰富的“填坑”经验,产品也在不断“填坑”的过程中逐步走向成熟。


那么,面对金融行业的数据共享场景,合格的数据动态脱敏产品要跨越的技术障碍和必须要填的“坑”都有哪些呢?下面我们将站在技术角度抛砖引玉,希望对业内的厂商、专家、用户有所帮助,同时也欢迎“拍砖”,共同进步。


Trap1:select * ,一个简单但是难填的坑。


对于动态脱敏策略,常用做法是指定需要脱敏的字段,或字段通配符,如此一来,必然会面临以下问题:


场景1:配置了字段ABC需要进行脱敏处理,而用户执行的操作是select *,并没有在操作中写明字段名,这种情况还能针对字段ABC成功脱敏吗?


场景2:配置了字段ABC需要进行脱敏处理,但用户的应用系统存在一个功能是“每天自动产生一个包含这个字段的表,并且表中的这个字段的数据也需要脱敏”,应对每天增量产生的表执行select *操作,可以做到及时成功脱敏吗?


技术应对:动态脱敏产品自动的根据用户发起的SQL命令进行分析,并且实时的检查select *这一命令操作的表有哪些字段,并根据实时检查的结果自动的对数据进行脱敏。


Trap2:用户执行的SQL命令中对敏感字段执行了函数转换,是否会造成绕过脱敏的结果?


场景:配置了字段ABC需要进行脱敏处理,用户执行的操作是select substr(ABC,1,2),field1,field3,substr(ABC,2,5) from table,该操作中敏感字段的数据被“拆开”来使用,能够成功脱敏吗?


技术应对:合格的动态脱敏产品,是作用在请求的SQL操作的字段上,而不是对返回的结果集进行变形处理,因为如果这样做会造成无法适应各种复杂的SQL命令而产生结果集数据。


Trap3:词法分析还是语法分析,这是个准确度问题。


目前,动态脱敏主流的实现方式是采用网关或代理的方式(Informatica DDM和安华金和DDM正是采用这种实现方式),在客户端和服务器之间按照策略进行SQL操作的改写,来实现对数据脱敏的效果。这个SQL改写的过程必然需要对SQL语句进行拆包和分析,可供选择的技术路线包括正则匹配、词法分析、语法分析;因为正则匹配非常不准确,所以首先被淘汰掉;接下来就面临到底是选择词法分析还是语法分析的问题了。


众所周知,语法分析是非常复杂的,词法分析则相对简单很多,二者能够达到的脱敏准确度也会不同,见典型场景:


场景:配置表TA的字段ABC需要脱敏,表TB的ABC字段不脱敏;用户执行的SQL操作为select a.ABC,b.ABC from TA a,TB b where a.id=b.id;这个语句需要正确的识别出脱敏对象。


技术应对:通过语法分析,正确的识别a.ABC字段为需要脱敏的字段,b.abc字段不能进行脱敏。


Trap4:执行begin...end语句块,语句块中包含动态SQL语句,如何处理?


场景:配置persionid为需要脱敏的字段,用户在PLSQL客户端工具中执行下面的语句块:



这个语句块中,关键是查询操作是采用拼接的SQL命令并动态执行SQL操作,其结果是通过语法分析无法准确地对需要脱敏的字段进行处理。


技术应对:即使采用了语法分析,这种动态SQL语句也无法被处理;建议采用的策略是禁止这样的操作被执行。


Trap5:WHERE子句中包含敏感字段作为条件字段,脱敏还是不脱敏?


场景:用户配置了persionid字段为敏感字段,执行SQL命令select persionid,datefield from performance_c_1000000 where persionid like '1204581978%';


在这个操作中,会面临一个问题:是否需要对where条件中的persionid字段(红色字体)进行脱敏处理?


如果选择脱敏处理,好处是不会造成通过精确查询进行数据的“猜测”引起的数据泄露;缺点是恐怕很难再通过脱敏字段作为条件进行查询,因为说不清查询的结果会如何,很大可能是查不到结果。


如果不进行脱敏处理,好处是不影响查询操作,该查询到的数据依然能够查到;缺点是数据很可能通过频繁查询可以猜测到真实数据,导致数据仍然存在泄漏风险。


技术应对:无论如何选择,都无法实现最佳效果,相对合理的解决方案是两种都提供,然后根据实际的需求来配置合理的策略。


此外,金融行业对于业务系统的运行稳定性有着严格的要求,而动态脱敏作用于网络层,脱敏系统串接在访问者和敏感数据之间,因此产品需要兼顾高性能与稳定性,不会因脱敏处理导致性能的明显下降,同时兼容全系列数据库协议;另一方面,需要具备高并发条件下的抗压能力,拥有完善的容灾机制;这些都将成为衡量动态脱敏产品成熟度的标准。


在数据安全领域,“禁止”和“防护”固然重要,但是如果背离了数据共享和合理使用的前提,那么数据的价值将大幅度下降。数据脱敏技术,正是兼顾数据“用”、“护”之道的有效手段。无论动态脱敏还是静态脱敏,在金融行业数据安全领域,将越发不可替代,真正为金融用户铸造安全、可靠、高效的数据使用环境。我们看到基于网络层的动态脱敏技术为金融行业的实时数据共享开辟了新的前景。

相关文章
|
10月前
|
机器学习/深度学习 存储 自然语言处理
基于AIGC的智能化数据资产盘点方案
基于AIGC的智能化数据资产盘点方案
333 2
基于AIGC的智能化数据资产盘点方案
|
10月前
|
安全 数据处理 数据安全/隐私保护
企业出海数据合规:何为数据脱敏
数据脱敏并非简单技术手段,其涵盖法律与技术双重维度。法律上,脱敏是保护个人隐私的一种效果,技术上则是采用不可逆或难以还原的方法,降低数据泄露风险。GDPR下,个人身份、账户和健康信息等应脱敏处理,程度可根据数据敏感性确定。脱敏常见方法包括随机化、掩码、加密等,旨在保护数据安全与隐私。
249 0
|
数据采集 存储 监控
一个平台搞定数据治理,让数据资产发挥价值
本文将为大家解析如何通过袋鼠云数据治理中心进行企业数据多维度治理,实现数据资产的最大化利用和价值发挥。
135 0
|
10月前
|
安全
隐私计算开源如何助力数据要素流通
这一讲的第一部分对上一讲中提到的,数据流转中的利益对齐和安全焦虑问题进行补充:[第2讲:隐私计算开源如何助力数据要素流通](https://www.bilibili.com/video/BV11p421U73N/)。
|
5月前
|
数据采集 存储 监控
数据治理:解锁数据资产潜力,驱动企业决策与业务增长的密钥
在当今这个数据驱动的时代,企业所拥有的数据资产已成为其核心竞争力的重要组成部分。然而,仅仅拥有海量数据并不足以确保成功,关键在于如何有效地管理和利用这些数据,以支持精准决策、优化运营流程并推动业务持续增长。这就是数据治理的重要性所在——它是一套系统性的方法和流程,旨在确保数据质量、安全性、可用性和合规性,从而让数据资产能够最大化地支持企业决策和业务增长。
|
10月前
|
存储 缓存 安全
企业出海合规:如何区分数据控制者与数据处理者
数据控制者是确定个人数据处理目的和方式的实体,负有最大责任,需保护数据主体的隐私。数据处理者是按照控制者指示处理个人数据的实体,负责数据安全和协助控制者履行职责。两者需通过明确的合同规定责任。数据控制者的职责包括确定目的、获得同意、确保安全、提供透明度、促进权利行使、进行DPIA和建立协议。数据处理者负责按指示处理数据、确保安全和保密、协助控制者、处理数据泄露通知、数据删除和遵守法律。
495 0
|
9月前
|
安全 区块链 数据安全/隐私保护
第2讲 隐私计算开源如何助力数据要素流通
数据流通涉及关键主体:数据提供方关注商业秘密、个人隐私、数据控制与安全;数据消费方关注授权链与合规性;数据平台方提供主体审核、授权链审查、合规评审及商业秘密保护,初期依赖主体可信,需逐步转向技术可信。关键技术包括隐私计算实现数据可用不可见,数据空间+区块链确保数据可控可计量,以及数据匿名化实现可算不可识。
126 2
|
10月前
|
存储 供应链 搜索推荐
【深度观点】资源数字化、数字资产化与资产数权化是分布式商业运行的核心要素
分布式商业的运作逻辑是以资源和能力要素为后端,以数字化资源为关键生产要素,以分布式网络(web3.0)为市场资源配置纽带,前端洞察出需求后,资源、资产、人才等能力要素则迅速向解决消费者的需求去倾斜,资源云化,资产数权化,随需而取,随需转移,从而实现供需资源的有效匹配。
【深度观点】资源数字化、数字资产化与资产数权化是分布式商业运行的核心要素
|
10月前
|
传感器 数据处理
企业出海数据合规:GDPR中的个人数据与非个人数据之区分
GDPR中个人数据定义为能区分或识别自然人的任何信息,包括敏感和私人信息。个人数据与非个人数据的区分标准之一是是否可识别。在实践中,判断数据是否属于个人数据采用基于风险的方法,即如果合理可能发生身份识别,则属于个人数据。同时,考虑匿名化时,应考虑所有可能合理使用的手段,包括成本、时间和技术发展情况。
272 0
|
SQL 安全 算法
带你读《数据安全流通方案(瓴羊隐私计算白皮书)》——4. Dataphin 隐私计算四大技术应用场景
带你读《数据安全流通方案(瓴羊隐私计算白皮书)》——4. Dataphin 隐私计算四大技术应用场景
279 1