学术顶会是技术交流的重要平台,很多关键技术就是从学术顶会中的论文开始被熟知。4月底结束的人工智能领域A类顶会TheWebConf2022(万维网国际会议)上,蚂蚁集团参与撰写的隐私计算技术论文《基于差分隐私知识迁移实现的隐私保护跨域推荐》被收录并得到展示。
TheWebConf 2022共收到1822篇长文投稿,其中有323篇长文被接收,接收率约为17.7%。蚂蚁参与的论文提供了差分隐私跨域推荐的方法,在明文情况下,模型性能和单域推荐相比提高约0.2~0.3,和跨域推荐sota相比提高约0.05~0.15。
差分隐私(Differential Privacy,DP)是Dwork在2006年针对数据库的隐私泄露问题提出的一种新型密码学手段,是隐私计算技术体系的扩充。这项技术的机制是通过在源数据或计算机结果上添加特定分布的噪音,确保各参与方无法通过得到的数据分析出数据集中是否包含某一特定实体,包括本地差分隐私和计算结果差分隐私。目前,差分隐私处于快速增长的技术创新阶段,是一项值得关注的隐私计算技术。
小编请到了这篇论文的作者之一,蚂蚁可信隐私计算通用框架“隐语”团队的鸣悦,带大家看看论文中有哪些差分隐私技术知识点。
摘 要
隐私保护跨域推荐问题是在保护两个领域中数据隐私的前提下,利用源域的信息提高目标域中推荐系统的表现,以解决目标域中数据稀缺和冷启动等问题。
在推荐系统中,为了减少冷启动和数据稀疏性等常见问题的影响,跨域推荐(Cross Domain Recommendation)作为一种常见的方法得到了广泛的研究和应用。跨域推荐中的隐私保护问题,一直是数据保护技术研究的重点之一,本论文提出了一个创新性的二阶段隐私保护跨域推荐框架,旨在为解决该问题提出一些研究路径。
在第一阶段,该论文提出了两种基于随机变换安全发布评分矩阵的方法,即Johnson-Lindenstrass变换和Sparse-aware Johnson-Lindenstrauss变换。
在第二阶段,论文中提出了一个创新性的非对称跨域推荐模型,分别利用深度自编码器和深度神经网络对安全发布的源域评分矩阵和目标域评分矩阵进行进一步的学习。从而不仅达到了保护源域数据隐私的目的,还减少源域数据稀疏性。
Johnson-Lindentrauss Transform(JLT)和Sparse-aware Johnson-Lindenstrauss Transform(SJLT),是根据推荐系统中评分矩阵的稀疏特性提出的两种基于随机变换的安全发布方式,在论文中分别证明了这两种方法的隐私保护性,可用性,以及SJLT的提升。
方 法
我们假设源域和目标域的数据具有相同的用户集合,和不同的用户产品。更进一步地,假设用户产品交互信息仅局限于用户对于产品的评分,即原始数据为源域和目标域的两个评分矩阵。
研究中提出的方法包含两个步骤,其一是目标域数据的差分隐私发布。通过构造两组随机变换,得到了目标域评分矩阵的子空间嵌入,并从理论上证明了该随机子空间嵌入的隐私保护性和可用性;其二,使用了非对称的跨领域推荐模型,将源域中差分隐私安全发布的子空间嵌入迁移到目标域的推荐系统中,提高目标域中推荐模型的表现。
来自蚂蚁及浙大的团队在第一阶段设计了差分隐私安全发布、证明了隐私性和可用性有保证,并在第二阶段设计了非对称跨领域推荐,并进行了充分的实验验证。
在得到评分矩阵在两组子空间的嵌入后,研究团队证明这两组子空间的嵌入满足用户层面差分隐私的定义,再将源域数据的低维子空间嵌入送到目标域的推荐系统中,进行下游的跨域推荐任务。在跨域推荐任务中,使用了非对称的模型,如下图所示。
对于目标域的评分矩阵,使用深度神经网络作为评分回归模型,学习到目标域的user-embedding 和item-embedding。对于源域评分矩阵的子空间嵌入,使用Deep Auto Encoder作为评分重构模型,学习到源域的user-embedding并将其迁移到目标域中做alignment。最后,根据目标域的user-emebdding 和item-embedding,计算出目标域的预计评分矩阵。
除此以外,研究团队还说明了在输入数据稀疏的情况下,SJLT的功能。在SJLT中,P是高斯随机矩阵M的稀疏形式,H hadamard矩阵是加法群 上的离散傅立叶变换,D是对角随机矩阵。研究小组希望减少矩阵乘法中的运算量,因而用稀疏化的P代替JL中的M。但因为评分矩阵本身的稀疏特性,用稀疏高斯矩阵P直接作用在稀疏评分矩阵中的x上, P中的非零元很难抓住x中不为零的信息,即输出向量Px大部分为0,丢失的信息量太大,对下游的任务起不到帮助。因而考虑先用随机hadamard矩阵HD预处理稀疏向量x,得到一个光滑化的输入向量HDx,在经过稀疏高斯随机变换PHDx,得到的向量更好地抓住了原始稀疏输入x地信息。
使用随机hadamard矩阵HD预处理稀疏向量x的想法,来源于傅立叶变换的不确定性原理(The Uncertainty Principle of Fourier Transform)。直观地解释是一个非零函数和它的傅立叶变换不会同时sharply located。在此处是离散的情况,即一个向量和它经过傅立叶变换的向量不会同时稀疏性很高。不确定性原理常见于量子物理中,常见的共轭物理量有位置和动量,时间和频率。
差分隐私在隐私保护场景的应用
苹果曾宣布使用差分隐私的方式来收集用户信息,且首先应用到分析流行表情符号,收集 Safari 中能耗率高的网页信息,以及发现新流行词语(QuickType 相关)上。应用差分隐私方案,根据添加干扰信息的先后,可以分为两种设置:本地和中央。
(差分隐私收集数据的方式,图片来自苹果)
苹果在论文中讲述了 “本地差分隐私” 这一方案的使用:在数据从用户设备发出之前,就会添加上干扰信息,同时每天只会通过加密通道上传一次数据,数据在到达服务器后,设备的 IP 标识会被丢弃,各个记录之间的关联也会被丢弃。
当然,iOS 10、macOS Sierra 以上的用户,可以自己选择是否要加入差分隐私,在 iPhone 的隐私菜单,苹果电脑的控制台中,可以自主设置。
谷歌对差分隐私的应用主要在Google's open-source libraries当中。在谷歌一篇社区移动报告中,量化了用户移动模式的变化,主要包括两方面:多少用户去了工作地点(或特定类型的公共地点)以及用户在家待多久。同时在谷歌地图中采用差分隐私一方面量化了整天当中不同地方的拥挤程度,另一方面用于描述哪些餐厅最受欢迎。
蚂蚁对于差分隐私技术的一直有相关研发和应用探索,本次论文提出的重要发现,作为重要的技术储备,未来会在隐语框架上进行联邦差分隐私的开发。
1989年,互联网之父蒂姆·伯纳斯·李(Tim Berners-Lee)发明了万维网,所有以WWW开头的网站都是此后才出现。1994年蒂姆·伯纳斯·李在麻省理工学院计算机科学实验室成立万维网联盟(W3C),万维网联盟在当年发起主办了第一届万维网国际会议“The International World Wide Web Conference (WWW)”,于2018年正式更名为TheWebConf。
TheWebConf是网络系统与应用交叉领域的顶级学术会议,在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,TheWebConf均被列为人工智能领域A类顶级会议,是互联网发展的风向标,录用率常年维持在14%~18%。