蚂蚁隐私计算论文被A类国际顶会收录

简介: 蚂蚁隐私计算论文被A类国际顶会收录

学术顶会是技术交流的重要平台,很多关键技术就是从学术顶会中的论文开始被熟知。4月底结束的人工智能领域A类顶会TheWebConf2022(万维网国际会议)上,蚂蚁集团参与撰写的隐私计算技术论文《基于差分隐私知识迁移实现的隐私保护跨域推荐》被收录并得到展示。
TheWebConf 2022共收到1822篇长文投稿,其中有323篇长文被接收,接收率约为17.7%。蚂蚁参与的论文提供了差分隐私跨域推荐的方法,在明文情况下,模型性能和单域推荐相比提高约0.2~0.3,和跨域推荐sota相比提高约0.05~0.15。
图片.png

差分隐私(Differential Privacy,DP)是Dwork在2006年针对数据库的隐私泄露问题提出的一种新型密码学手段,是隐私计算技术体系的扩充。这项技术的机制是通过在源数据或计算机结果上添加特定分布的噪音,确保各参与方无法通过得到的数据分析出数据集中是否包含某一特定实体,包括本地差分隐私和计算结果差分隐私。目前,差分隐私处于快速增长的技术创新阶段,是一项值得关注的隐私计算技术。
小编请到了这篇论文的作者之一,蚂蚁可信隐私计算通用框架“隐语”团队的鸣悦,带大家看看论文中有哪些差分隐私技术知识点。


摘 要


隐私保护跨域推荐问题是在保护两个领域中数据隐私的前提下,利用源域的信息提高目标域中推荐系统的表现,以解决目标域中数据稀缺和冷启动等问题。


在推荐系统中,为了减少冷启动和数据稀疏性等常见问题的影响,跨域推荐(Cross Domain Recommendation)作为一种常见的方法得到了广泛的研究和应用。跨域推荐中的隐私保护问题,一直是数据保护技术研究的重点之一,本论文提出了一个创新性的二阶段隐私保护跨域推荐框架,旨在为解决该问题提出一些研究路径。


在第一阶段,该论文提出了两种基于随机变换安全发布评分矩阵的方法,即Johnson-Lindenstrass变换和Sparse-aware Johnson-Lindenstrauss变换。


在第二阶段,论文中提出了一个创新性的非对称跨域推荐模型,分别利用深度自编码器和深度神经网络对安全发布的源域评分矩阵和目标域评分矩阵进行进一步的学习。从而不仅达到了保护源域数据隐私的目的,还减少源域数据稀疏性。


Johnson-Lindentrauss Transform(JLT)和Sparse-aware Johnson-Lindenstrauss Transform(SJLT),是根据推荐系统中评分矩阵的稀疏特性提出的两种基于随机变换的安全发布方式,在论文中分别证明了这两种方法的隐私保护性,可用性,以及SJLT的提升。


方 法

我们假设源域和目标域的数据具有相同的用户集合,和不同的用户产品。更进一步地,假设用户产品交互信息仅局限于用户对于产品的评分,即原始数据为源域和目标域的两个评分矩阵。


研究中提出的方法包含两个步骤,其一是目标域数据的差分隐私发布。通过构造两组随机变换,得到了目标域评分矩阵的子空间嵌入,并从理论上证明了该随机子空间嵌入的隐私保护性和可用性;其二,使用了非对称的跨领域推荐模型,将源域中差分隐私安全发布的子空间嵌入迁移到目标域的推荐系统中,提高目标域中推荐模型的表现。


来自蚂蚁及浙大的团队在第一阶段设计了差分隐私安全发布、证明了隐私性和可用性有保证,并在第二阶段设计了非对称跨领域推荐,并进行了充分的实验验证。


在得到评分矩阵在两组子空间的嵌入后,研究团队证明这两组子空间的嵌入满足用户层面差分隐私的定义,再将源域数据的低维子空间嵌入送到目标域的推荐系统中,进行下游的跨域推荐任务。在跨域推荐任务中,使用了非对称的模型,如下图所示。


对于目标域的评分矩阵,使用深度神经网络作为评分回归模型,学习到目标域的user-embedding 和item-embedding。对于源域评分矩阵的子空间嵌入,使用Deep Auto Encoder作为评分重构模型,学习到源域的user-embedding并将其迁移到目标域中做alignment。最后,根据目标域的user-emebdding 和item-embedding,计算出目标域的预计评分矩阵。


图片.png


除此以外,研究团队还说明了在输入数据稀疏的情况下,SJLT的功能。在SJLT中,P是高斯随机矩阵M的稀疏形式,H hadamard矩阵是加法群  上的离散傅立叶变换,D是对角随机矩阵。研究小组希望减少矩阵乘法中的运算量,因而用稀疏化的P代替JL中的M。但因为评分矩阵本身的稀疏特性,用稀疏高斯矩阵P直接作用在稀疏评分矩阵中的x上, P中的非零元很难抓住x中不为零的信息,即输出向量Px大部分为0,丢失的信息量太大,对下游的任务起不到帮助。因而考虑先用随机hadamard矩阵HD预处理稀疏向量x,得到一个光滑化的输入向量HDx,在经过稀疏高斯随机变换PHDx,得到的向量更好地抓住了原始稀疏输入x地信息。


使用随机hadamard矩阵HD预处理稀疏向量x的想法,来源于傅立叶变换的不确定性原理(The Uncertainty Principle of Fourier Transform)。直观地解释是一个非零函数和它的傅立叶变换不会同时sharply located。在此处是离散的情况,即一个向量和它经过傅立叶变换的向量不会同时稀疏性很高。不确定性原理常见于量子物理中,常见的共轭物理量有位置和动量,时间和频率。

差分隐私在隐私保护场景的应用


苹果曾宣布使用差分隐私的方式来收集用户信息,且首先应用到分析流行表情符号,收集 Safari 中能耗率高的网页信息,以及发现新流行词语(QuickType 相关)上。应用差分隐私方案,根据添加干扰信息的先后,可以分为两种设置:本地和中央。


图片.png

(差分隐私收集数据的方式,图片来自苹果)


苹果在论文中讲述了 “本地差分隐私” 这一方案的使用:在数据从用户设备发出之前,就会添加上干扰信息,同时每天只会通过加密通道上传一次数据,数据在到达服务器后,设备的 IP 标识会被丢弃,各个记录之间的关联也会被丢弃。

 

当然,iOS 10、macOS Sierra 以上的用户,可以自己选择是否要加入差分隐私,在 iPhone 的隐私菜单,苹果电脑的控制台中,可以自主设置。


谷歌对差分隐私的应用主要在Google's open-source libraries当中。在谷歌一篇社区移动报告中,量化了用户移动模式的变化,主要包括两方面:多少用户去了工作地点(或特定类型的公共地点)以及用户在家待多久。同时在谷歌地图中采用差分隐私一方面量化了整天当中不同地方的拥挤程度,另一方面用于描述哪些餐厅最受欢迎。


003.gif


蚂蚁对于差分隐私技术的一直有相关研发和应用探索,本次论文提出的重要发现,作为重要的技术储备,未来会在隐语框架上进行联邦差分隐私的开发。


1989年,互联网之父蒂姆·伯纳斯·李(Tim Berners-Lee)发明了万维网,所有以WWW开头的网站都是此后才出现。1994年蒂姆·伯纳斯·李在麻省理工学院计算机科学实验室成立万维网联盟(W3C),万维网联盟在当年发起主办了第一届万维网国际会议“The International World Wide Web Conference (WWW)”,于2018年正式更名为TheWebConf。


TheWebConf是网络系统与应用交叉领域的顶级学术会议,在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,TheWebConf均被列为人工智能领域A类顶级会议,是互联网发展的风向标,录用率常年维持在14%~18%。

相关文章
|
10月前
|
机器学习/深度学习 人工智能 编解码
NLP领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ACL 2023
阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。
|
11月前
|
机器学习/深度学习 编解码 监控
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(1)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
|
11月前
|
机器学习/深度学习 编解码 人工智能
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?(2)
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
168 0
|
数据采集 机器学习/深度学习 人工智能
那个在国际翻译大赛上夺冠的模型,字节刚刚给开源了(附夺冠代码)
那个在国际翻译大赛上夺冠的模型,字节刚刚给开源了(附夺冠代码)
174 0
|
机器学习/深度学习 编解码 人工智能
华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022
华为诺亚调研200多篇文献,视觉Transformer综述入选TPAMI 2022
219 0
|
机器人 计算机视觉
首次机器人抓取云竞赛引国际学界广泛关注和参与
近日,阿里巴巴达摩院人工智能实验室与University of South Florida等国外著名研究机构共同举办了世界首次机器人抓取云竞赛:OCRTOC竞赛。OCRTOC竞赛聚焦于机器人抓取能力以及桌面物品整理的应用场景,旨在成为机器人抓取技术领域的ImageNet。OCRTOC竞赛获得了国际电气电子工程师协会两大技术委员会的大力支持,并成为国际机器人顶会IROS2020的正式官方赛事,吸引了全球顶尖学府的关注!
348 0
首次机器人抓取云竞赛引国际学界广泛关注和参与
|
机器学习/深度学习 人工智能 自然语言处理
年度回顾 | 从九大国际AI顶会接收论文一窥ML算法趋势(上)
本文节选自机器之心《2021-2022年度 AI科技发展趋势报告 · 研究篇》,详细数据及分析过程在完整报告中进行收录。报告将于2022年开春正式发布,点击阅读原文获得免费获取报告机会。
255 0
年度回顾 | 从九大国际AI顶会接收论文一窥ML算法趋势(上)
|
机器学习/深度学习 人工智能 自然语言处理
斯坦福发布2019全球AI报告:中国论文数量超美国,但论文影响力比美国低50%
近日,斯坦福联合MIT、哈佛、OpenAI等院校和机构发布了一份291页的"2019年度AI指数报告"。报告显示中国AI论文数量超美国,但论文影响力美国比中国高50%;AI人才辞去学术界教职进入产业界的速度加快;自动驾驶最受投资者的青睐……
151 0
斯坦福发布2019全球AI报告:中国论文数量超美国,但论文影响力比美国低50%
|
机器学习/深度学习 数据采集 人工智能
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架
在 NeurIPS 的第一届 Expo 上,百度向 NeurIPS 2018 年大会参与者展现了什么?
138 0
百度亮相NeurIPS 首届Expo:向世界科普了一次中国自动机器学习框架
|
机器学习/深度学习 自然语言处理 算法