蚂蚁隐私计算论文被A类国际顶会收录

简介: 蚂蚁隐私计算论文被A类国际顶会收录

学术顶会是技术交流的重要平台,很多关键技术就是从学术顶会中的论文开始被熟知。4月底结束的人工智能领域A类顶会TheWebConf2022(万维网国际会议)上,蚂蚁集团参与撰写的隐私计算技术论文《基于差分隐私知识迁移实现的隐私保护跨域推荐》被收录并得到展示。
TheWebConf 2022共收到1822篇长文投稿,其中有323篇长文被接收,接收率约为17.7%。蚂蚁参与的论文提供了差分隐私跨域推荐的方法,在明文情况下,模型性能和单域推荐相比提高约0.2~0.3,和跨域推荐sota相比提高约0.05~0.15。
图片.png

差分隐私(Differential Privacy,DP)是Dwork在2006年针对数据库的隐私泄露问题提出的一种新型密码学手段,是隐私计算技术体系的扩充。这项技术的机制是通过在源数据或计算机结果上添加特定分布的噪音,确保各参与方无法通过得到的数据分析出数据集中是否包含某一特定实体,包括本地差分隐私和计算结果差分隐私。目前,差分隐私处于快速增长的技术创新阶段,是一项值得关注的隐私计算技术。
小编请到了这篇论文的作者之一,蚂蚁可信隐私计算通用框架“隐语”团队的鸣悦,带大家看看论文中有哪些差分隐私技术知识点。


摘 要


隐私保护跨域推荐问题是在保护两个领域中数据隐私的前提下,利用源域的信息提高目标域中推荐系统的表现,以解决目标域中数据稀缺和冷启动等问题。


在推荐系统中,为了减少冷启动和数据稀疏性等常见问题的影响,跨域推荐(Cross Domain Recommendation)作为一种常见的方法得到了广泛的研究和应用。跨域推荐中的隐私保护问题,一直是数据保护技术研究的重点之一,本论文提出了一个创新性的二阶段隐私保护跨域推荐框架,旨在为解决该问题提出一些研究路径。


在第一阶段,该论文提出了两种基于随机变换安全发布评分矩阵的方法,即Johnson-Lindenstrass变换和Sparse-aware Johnson-Lindenstrauss变换。


在第二阶段,论文中提出了一个创新性的非对称跨域推荐模型,分别利用深度自编码器和深度神经网络对安全发布的源域评分矩阵和目标域评分矩阵进行进一步的学习。从而不仅达到了保护源域数据隐私的目的,还减少源域数据稀疏性。


Johnson-Lindentrauss Transform(JLT)和Sparse-aware Johnson-Lindenstrauss Transform(SJLT),是根据推荐系统中评分矩阵的稀疏特性提出的两种基于随机变换的安全发布方式,在论文中分别证明了这两种方法的隐私保护性,可用性,以及SJLT的提升。


方 法

我们假设源域和目标域的数据具有相同的用户集合,和不同的用户产品。更进一步地,假设用户产品交互信息仅局限于用户对于产品的评分,即原始数据为源域和目标域的两个评分矩阵。


研究中提出的方法包含两个步骤,其一是目标域数据的差分隐私发布。通过构造两组随机变换,得到了目标域评分矩阵的子空间嵌入,并从理论上证明了该随机子空间嵌入的隐私保护性和可用性;其二,使用了非对称的跨领域推荐模型,将源域中差分隐私安全发布的子空间嵌入迁移到目标域的推荐系统中,提高目标域中推荐模型的表现。


来自蚂蚁及浙大的团队在第一阶段设计了差分隐私安全发布、证明了隐私性和可用性有保证,并在第二阶段设计了非对称跨领域推荐,并进行了充分的实验验证。


在得到评分矩阵在两组子空间的嵌入后,研究团队证明这两组子空间的嵌入满足用户层面差分隐私的定义,再将源域数据的低维子空间嵌入送到目标域的推荐系统中,进行下游的跨域推荐任务。在跨域推荐任务中,使用了非对称的模型,如下图所示。


对于目标域的评分矩阵,使用深度神经网络作为评分回归模型,学习到目标域的user-embedding 和item-embedding。对于源域评分矩阵的子空间嵌入,使用Deep Auto Encoder作为评分重构模型,学习到源域的user-embedding并将其迁移到目标域中做alignment。最后,根据目标域的user-emebdding 和item-embedding,计算出目标域的预计评分矩阵。


图片.png


除此以外,研究团队还说明了在输入数据稀疏的情况下,SJLT的功能。在SJLT中,P是高斯随机矩阵M的稀疏形式,H hadamard矩阵是加法群  上的离散傅立叶变换,D是对角随机矩阵。研究小组希望减少矩阵乘法中的运算量,因而用稀疏化的P代替JL中的M。但因为评分矩阵本身的稀疏特性,用稀疏高斯矩阵P直接作用在稀疏评分矩阵中的x上, P中的非零元很难抓住x中不为零的信息,即输出向量Px大部分为0,丢失的信息量太大,对下游的任务起不到帮助。因而考虑先用随机hadamard矩阵HD预处理稀疏向量x,得到一个光滑化的输入向量HDx,在经过稀疏高斯随机变换PHDx,得到的向量更好地抓住了原始稀疏输入x地信息。


使用随机hadamard矩阵HD预处理稀疏向量x的想法,来源于傅立叶变换的不确定性原理(The Uncertainty Principle of Fourier Transform)。直观地解释是一个非零函数和它的傅立叶变换不会同时sharply located。在此处是离散的情况,即一个向量和它经过傅立叶变换的向量不会同时稀疏性很高。不确定性原理常见于量子物理中,常见的共轭物理量有位置和动量,时间和频率。

差分隐私在隐私保护场景的应用


苹果曾宣布使用差分隐私的方式来收集用户信息,且首先应用到分析流行表情符号,收集 Safari 中能耗率高的网页信息,以及发现新流行词语(QuickType 相关)上。应用差分隐私方案,根据添加干扰信息的先后,可以分为两种设置:本地和中央。


图片.png

(差分隐私收集数据的方式,图片来自苹果)


苹果在论文中讲述了 “本地差分隐私” 这一方案的使用:在数据从用户设备发出之前,就会添加上干扰信息,同时每天只会通过加密通道上传一次数据,数据在到达服务器后,设备的 IP 标识会被丢弃,各个记录之间的关联也会被丢弃。

 

当然,iOS 10、macOS Sierra 以上的用户,可以自己选择是否要加入差分隐私,在 iPhone 的隐私菜单,苹果电脑的控制台中,可以自主设置。


谷歌对差分隐私的应用主要在Google's open-source libraries当中。在谷歌一篇社区移动报告中,量化了用户移动模式的变化,主要包括两方面:多少用户去了工作地点(或特定类型的公共地点)以及用户在家待多久。同时在谷歌地图中采用差分隐私一方面量化了整天当中不同地方的拥挤程度,另一方面用于描述哪些餐厅最受欢迎。


003.gif


蚂蚁对于差分隐私技术的一直有相关研发和应用探索,本次论文提出的重要发现,作为重要的技术储备,未来会在隐语框架上进行联邦差分隐私的开发。


1989年,互联网之父蒂姆·伯纳斯·李(Tim Berners-Lee)发明了万维网,所有以WWW开头的网站都是此后才出现。1994年蒂姆·伯纳斯·李在麻省理工学院计算机科学实验室成立万维网联盟(W3C),万维网联盟在当年发起主办了第一届万维网国际会议“The International World Wide Web Conference (WWW)”,于2018年正式更名为TheWebConf。


TheWebConf是网络系统与应用交叉领域的顶级学术会议,在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,TheWebConf均被列为人工智能领域A类顶级会议,是互联网发展的风向标,录用率常年维持在14%~18%。

相关文章
|
2月前
|
数据采集 人工智能 自然语言处理
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
【8月更文挑战第17天】在人工智能领域,具身智能正成为研究焦点。它强调智能体在现实世界中的感知与交互。近期,鹏城实验室与中山大学联合发布的首篇全球具身智能综述,调研近400篇文献,总结了该领域的理论和技术进展。文章探讨了具身感知、交互及仿真到现实的适应性等关键议题,并指出了面临的挑战如数据质量、模型泛化等,为通向通用人工智能铺路。论文已发表于IEEE会议记录中。
176 60
|
3月前
|
机器学习/深度学习 运维 算法
|
机器学习/深度学习 编解码 监控
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(1)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
|
机器学习/深度学习 编解码 人工智能
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(2)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
210 0
|
机器学习/深度学习 达摩院 算法
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
阿里达摩院获KDD 2022最佳论文,国内企业首次获奖
132 0
|
机器学习/深度学习 传感器 人工智能
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
5年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药
191 0
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
485 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
|
机器学习/深度学习 人工智能 自然语言处理
斯坦福发布2019全球AI报告:中国论文数量超美国,但论文影响力比美国低50%
近日,斯坦福联合MIT、哈佛、OpenAI等院校和机构发布了一份291页的"2019年度AI指数报告"。报告显示中国AI论文数量超美国,但论文影响力美国比中国高50%;AI人才辞去学术界教职进入产业界的速度加快;自动驾驶最受投资者的青睐……
169 0
斯坦福发布2019全球AI报告:中国论文数量超美国,但论文影响力比美国低50%
|
安全
「人传人」去年12月或已发生:关于新型冠状病毒,最权威的流行病学研究发表了
新型冠状病毒肺炎疫情正牵动全国人民的心,在医务工作者和医务团队努力开展工作的同时,科研人员也在加紧对于疫情的研究工作。
183 0
「人传人」去年12月或已发生:关于新型冠状病毒,最权威的流行病学研究发表了
|
机器学习/深度学习 存储 分布式计算
阿里云飞天论文获国际架构顶会 ATC 2021最佳论文:全球仅三篇
近日,计算机系统结构国际顶级学术会议 USENIX ATC在线上举行。ATC 始办于1992年,是由USENIX组织的计算机系统领域的顶级会议,至今已成功举办31届,计算机系统领域中Oak语言(JAVA语言的前身)、QEMU、ZooKeeper等一系列有影响力的研究成果都在USENIXATC发表或公布。ATC 对论文要求极高,必须满足基础性贡献、前瞻性影响和坚实系统实现的要求,本次论文录取率仅为18%,全球仅选取3篇最佳论文。
1248 0
阿里云飞天论文获国际架构顶会 ATC 2021最佳论文:全球仅三篇
下一篇
无影云桌面