蚂蚁隐私计算论文被A类国际顶会收录

简介: 蚂蚁隐私计算论文被A类国际顶会收录

学术顶会是技术交流的重要平台,很多关键技术就是从学术顶会中的论文开始被熟知。4月底结束的人工智能领域A类顶会TheWebConf2022(万维网国际会议)上,蚂蚁集团参与撰写的隐私计算技术论文《基于差分隐私知识迁移实现的隐私保护跨域推荐》被收录并得到展示。
TheWebConf 2022共收到1822篇长文投稿,其中有323篇长文被接收,接收率约为17.7%。蚂蚁参与的论文提供了差分隐私跨域推荐的方法,在明文情况下,模型性能和单域推荐相比提高约0.2~0.3,和跨域推荐sota相比提高约0.05~0.15。
图片.png

差分隐私(Differential Privacy,DP)是Dwork在2006年针对数据库的隐私泄露问题提出的一种新型密码学手段,是隐私计算技术体系的扩充。这项技术的机制是通过在源数据或计算机结果上添加特定分布的噪音,确保各参与方无法通过得到的数据分析出数据集中是否包含某一特定实体,包括本地差分隐私和计算结果差分隐私。目前,差分隐私处于快速增长的技术创新阶段,是一项值得关注的隐私计算技术。
小编请到了这篇论文的作者之一,蚂蚁可信隐私计算通用框架“隐语”团队的鸣悦,带大家看看论文中有哪些差分隐私技术知识点。


摘 要


隐私保护跨域推荐问题是在保护两个领域中数据隐私的前提下,利用源域的信息提高目标域中推荐系统的表现,以解决目标域中数据稀缺和冷启动等问题。


在推荐系统中,为了减少冷启动和数据稀疏性等常见问题的影响,跨域推荐(Cross Domain Recommendation)作为一种常见的方法得到了广泛的研究和应用。跨域推荐中的隐私保护问题,一直是数据保护技术研究的重点之一,本论文提出了一个创新性的二阶段隐私保护跨域推荐框架,旨在为解决该问题提出一些研究路径。


在第一阶段,该论文提出了两种基于随机变换安全发布评分矩阵的方法,即Johnson-Lindenstrass变换和Sparse-aware Johnson-Lindenstrauss变换。


在第二阶段,论文中提出了一个创新性的非对称跨域推荐模型,分别利用深度自编码器和深度神经网络对安全发布的源域评分矩阵和目标域评分矩阵进行进一步的学习。从而不仅达到了保护源域数据隐私的目的,还减少源域数据稀疏性。


Johnson-Lindentrauss Transform(JLT)和Sparse-aware Johnson-Lindenstrauss Transform(SJLT),是根据推荐系统中评分矩阵的稀疏特性提出的两种基于随机变换的安全发布方式,在论文中分别证明了这两种方法的隐私保护性,可用性,以及SJLT的提升。


方 法

我们假设源域和目标域的数据具有相同的用户集合,和不同的用户产品。更进一步地,假设用户产品交互信息仅局限于用户对于产品的评分,即原始数据为源域和目标域的两个评分矩阵。


研究中提出的方法包含两个步骤,其一是目标域数据的差分隐私发布。通过构造两组随机变换,得到了目标域评分矩阵的子空间嵌入,并从理论上证明了该随机子空间嵌入的隐私保护性和可用性;其二,使用了非对称的跨领域推荐模型,将源域中差分隐私安全发布的子空间嵌入迁移到目标域的推荐系统中,提高目标域中推荐模型的表现。


来自蚂蚁及浙大的团队在第一阶段设计了差分隐私安全发布、证明了隐私性和可用性有保证,并在第二阶段设计了非对称跨领域推荐,并进行了充分的实验验证。


在得到评分矩阵在两组子空间的嵌入后,研究团队证明这两组子空间的嵌入满足用户层面差分隐私的定义,再将源域数据的低维子空间嵌入送到目标域的推荐系统中,进行下游的跨域推荐任务。在跨域推荐任务中,使用了非对称的模型,如下图所示。


对于目标域的评分矩阵,使用深度神经网络作为评分回归模型,学习到目标域的user-embedding 和item-embedding。对于源域评分矩阵的子空间嵌入,使用Deep Auto Encoder作为评分重构模型,学习到源域的user-embedding并将其迁移到目标域中做alignment。最后,根据目标域的user-emebdding 和item-embedding,计算出目标域的预计评分矩阵。


图片.png


除此以外,研究团队还说明了在输入数据稀疏的情况下,SJLT的功能。在SJLT中,P是高斯随机矩阵M的稀疏形式,H hadamard矩阵是加法群  上的离散傅立叶变换,D是对角随机矩阵。研究小组希望减少矩阵乘法中的运算量,因而用稀疏化的P代替JL中的M。但因为评分矩阵本身的稀疏特性,用稀疏高斯矩阵P直接作用在稀疏评分矩阵中的x上, P中的非零元很难抓住x中不为零的信息,即输出向量Px大部分为0,丢失的信息量太大,对下游的任务起不到帮助。因而考虑先用随机hadamard矩阵HD预处理稀疏向量x,得到一个光滑化的输入向量HDx,在经过稀疏高斯随机变换PHDx,得到的向量更好地抓住了原始稀疏输入x地信息。


使用随机hadamard矩阵HD预处理稀疏向量x的想法,来源于傅立叶变换的不确定性原理(The Uncertainty Principle of Fourier Transform)。直观地解释是一个非零函数和它的傅立叶变换不会同时sharply located。在此处是离散的情况,即一个向量和它经过傅立叶变换的向量不会同时稀疏性很高。不确定性原理常见于量子物理中,常见的共轭物理量有位置和动量,时间和频率。

差分隐私在隐私保护场景的应用


苹果曾宣布使用差分隐私的方式来收集用户信息,且首先应用到分析流行表情符号,收集 Safari 中能耗率高的网页信息,以及发现新流行词语(QuickType 相关)上。应用差分隐私方案,根据添加干扰信息的先后,可以分为两种设置:本地和中央。


图片.png

(差分隐私收集数据的方式,图片来自苹果)


苹果在论文中讲述了 “本地差分隐私” 这一方案的使用:在数据从用户设备发出之前,就会添加上干扰信息,同时每天只会通过加密通道上传一次数据,数据在到达服务器后,设备的 IP 标识会被丢弃,各个记录之间的关联也会被丢弃。

 

当然,iOS 10、macOS Sierra 以上的用户,可以自己选择是否要加入差分隐私,在 iPhone 的隐私菜单,苹果电脑的控制台中,可以自主设置。


谷歌对差分隐私的应用主要在Google's open-source libraries当中。在谷歌一篇社区移动报告中,量化了用户移动模式的变化,主要包括两方面:多少用户去了工作地点(或特定类型的公共地点)以及用户在家待多久。同时在谷歌地图中采用差分隐私一方面量化了整天当中不同地方的拥挤程度,另一方面用于描述哪些餐厅最受欢迎。


003.gif


蚂蚁对于差分隐私技术的一直有相关研发和应用探索,本次论文提出的重要发现,作为重要的技术储备,未来会在隐语框架上进行联邦差分隐私的开发。


1989年,互联网之父蒂姆·伯纳斯·李(Tim Berners-Lee)发明了万维网,所有以WWW开头的网站都是此后才出现。1994年蒂姆·伯纳斯·李在麻省理工学院计算机科学实验室成立万维网联盟(W3C),万维网联盟在当年发起主办了第一届万维网国际会议“The International World Wide Web Conference (WWW)”,于2018年正式更名为TheWebConf。


TheWebConf是网络系统与应用交叉领域的顶级学术会议,在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,TheWebConf均被列为人工智能领域A类顶级会议,是互联网发展的风向标,录用率常年维持在14%~18%。

相关文章
|
5月前
|
机器学习/深度学习 运维 算法
|
机器学习/深度学习 存储 人工智能
CVPR 2020论文收录揭晓:Apollo全新车辆识别方法实力入选
CVPR 2020论文收录揭晓:Apollo全新车辆识别方法实力入选
|
机器学习/深度学习 达摩院 算法
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
161 0
|
人工智能 JSON 运维
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖(1)
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖
152 0
|
机器学习/深度学习 人工智能 运维
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖(2)
理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖
145 0
|
机器学习/深度学习 编解码 人工智能
华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022
华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022
315 0
|
机器学习/深度学习 存储 人工智能
阿里云机器学习平台PAI论文入选国际顶会ASPLOS 2022
近日,阿里云机器学习PAI主导的论文《机器学习访存密集计算编译优化框架AStitch》入选国际顶会ASPLOS 2022,论文通过编译优化的手段来自动化地提高机器学习任务的执行效率。此次入选意味着阿里云机器学习平台PAI自研的深度学习编译优化系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
518 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
|
存储 达摩院 Cloud Native
5篇论文入选国际顶会SIGMOD,阿里云&达摩院数据库技术研究再获认可
近日,ACM SIGMOD 2022在美国费城召开,阿里云数据库团队5篇论文入选,覆盖云原生、智能化、安全可信等数据库前沿研究方向。其中2篇为阿里云和达摩院的独立研究,体现了阿里云在数据库领域的自研成果达到了世界先进水平,得到了业界的广泛认可。
907 0
5篇论文入选国际顶会SIGMOD,阿里云&达摩院数据库技术研究再获认可
|
存储 达摩院 Cloud Native
再获国际顶会认可!阿里云数据库7篇论文入选VLDB
阿里云数据库团队共有7篇论文被VLDB 2022收录,其中的5篇来自于阿里云和达摩院的独立研究。