苹果新的差分隐私保护技术:着眼整体保护个体

简介:

实际上和所有巨型企业一样,苹果希望尽可能多地了解其用户。不过,该公司也将自己标榜为硅谷的隐私捍卫者——与很多依靠广告收入的竞争对手不同,该公司想对用户的信息知道得越少越好。因此,不令人意外的是,苹果公司现在公开吹嘘自己在数学部门这个模糊的分支里的“成绩”。

周一,在苹果世界开发者大会的主旨演讲里,该公司负责软件工程的高级副总裁克雷格·费德里希(Craig Federighi)再一次表扬了苹果的隐私政策,强调该公司从不收集用户个人档案,对iMessage和Facetime进行端至端的加密,尝试尽可能多地将涉及用户个人信息的计算储存于用户的个人设备上而非苹果服务器。不过费德里希也承认,一个越来越不容忽视的现实是,收集用户信息对于制作优秀软件非常关键,尤其是在大数据分析和机器学习的时代。他神神秘秘地透露说,问题的答案是“差分隐私保护”(differential privacy)。

费德里希在主旨演讲上表示:“我们相信各位用户都应该获得优秀的功能和隐私政策。差异隐私保护是统计和数据分析领域里的研究主题,利用哈希(hashing)、分段抽样(subsampling)和噪声注入(noise injection)等方式来实现……这种程度的众包学习,而在该过程当中又确保每位用户的信息是完全受保护的。苹果一直在这个领域从事一些超级重要的工作,以确保大规模地部署‘差分隐私保护’。”

按照苹果公司的观点,差分隐私保护是一个统计学概念,指的是尽可能多地了解特定的团体同时尽可能少地了解其中的任何个体。按照差分隐私保护,苹果可以收集和储存其用户的数据,并从中总结出用户们做什么、喜欢什么、想要什么等有用的概念。但是该公司不能提取有关该群体中任何一个个人的信息,否则就可能形成侵犯隐私。而在理论上,黑客或者情报机构也不能提取这些个体信息。

苹果公司的费德里希在主旨演讲中提到了宾夕法尼亚州大学计算机科学教授阿隆·罗夫(Aaron Roth),称他撰写了关于差分隐私保护方面的书籍,后者表示:“一旦拥有包含个人记录的大型数据集,你可能想要运行一段机器学习算法,从整个数据库中获取统计性的洞见,但是你也想要阻止外部的观察员或者攻击者,不让他们了解数据集中任何有关个人的特定信息。差分隐私保护可以让用户从大型数据集中获得一些深刻见解,并确保任何人都不能从中获取特定个人的信息。”

罗夫指出,差分隐私保护不只是对用户的数据做模糊化或匿名化处理,这种方式通常都是以失败告终的。在2007年,Netflix发布了大量用户的电影点评,其中隐去了用户的名字和其他相关的个人细节,只保留了他们在Netflix上的点评,希望从而优化网站的推荐功能。但是研究人员很快通过对Netflix数据与IMDB上的公众点评数据进行相互对照,从中找出两个网站之间相似的点评推荐,从而向Netflix本应匿名的数据库中添加用户的名字。

对于这些反匿名化伎俩,也可以采取相应的对策——例如去除Netflix电影的标题,只保留这些电影所属的种类。不过,没有人能保证其他聪明的花招或者相互对照的数据不能逆转匿名化行为。罗夫说:“如果在数据中除去用户的名字,并不能阻止人们聪明地进行相互对照。而这正是差分隐私保护所要避免的。”

他解释称,差分隐私保护寻求的是从数学方面证明,特定的数据分析形式不会透露个人的任何信息。“你可能采取了一些比前人更为聪明的办法来对你的数据集作匿名处理,但明天有可能出现比你更聪明的人,并对数据集反匿名化。差分隐私保护能够打破这种回路,因而是永不过时的。”

费德里希对差分隐私保护的强调可能意味着,现在苹果从用户设备上抓取到服务器进行分析的数据多于以往,就像谷歌、Facebook以及其他渴望获得数据的科技公司所做的一样。不过费德里希暗示,苹果只是以一种经过变换、差分隐私保护的方式传输这些数据。事实上,他提出了三种变换的方式,包括:哈希,这是一种加密功能,可以不可能逆转地将数据转化为独特的随机字符段;分段抽样,即只抽取部分数据;噪声注入,增加随机的数据从而使真实、敏感的个人信息模糊化。

从iOS 10开始,苹果将利用差分隐私保护技术来帮助发掘其大量用户的使用习惯,并确保不侵犯个人的隐私。为了模糊处理个人的身份,差分隐私保护向个人使用习惯的小样本中增加数学噪声。随着越来越多人呈现出相同的使用习惯,一般性模式浮现,从而有利于明确用户体验并帮助进行改善。在iOS 10,这种技术将帮助改进QuickType键盘和表情推荐、Spotlight深度链接推荐等。

当然,苹果是否严格遵照差分隐私保护技术来全面保护客户的隐私,这是另一个问题。在主旨演讲中,费德里希透露,苹果已经允许宾夕法尼亚州大学的罗夫“快速浏览”该公司对这种数学技术的执行情况。但是罗夫表示,目前不能对苹果执行差分隐私保护的具体情况进行评论。相反,就像他所帮助研究和发明的技术一样,罗夫只是提供了一个可以成功避免透露任何细节的结论:“我认为他们现在做的是正确的。”
本文转自d1net(转载)

相关文章
|
7月前
|
供应链 监控 数据挖掘
高质量决策是伪命题吗?拨开迷雾,回归决策价值
高质量决策是伪命题吗?拨开迷雾,回归决策价值
107 1
差分方程模型:基金运作与管理
差分方程模型:基金运作与管理
|
决策智能
博弈论第十一集总结(进化稳定—合作,突变,与平衡 “ 观后感)
博弈论第十一集总结(进化稳定—合作,突变,与平衡 “ 观后感)
79 0
|
算法 Python
升维打击——算法问题的维度碾压
升维打击——算法问题的维度碾压
138 0
个人号码资产化趋势背后 通信安全的商业价值几何?
个人号码资产化趋势背后 通信安全的商业价值几何?
个人号码资产化趋势背后 通信安全的商业价值几何?
|
算法 区块链
靠谱的区块链技术定制开发公司如何判断?
有很多企业想要自身投入区块链技术领域,通常涉及到三个部分,包括:编程语言、算法设计、某一区块链的开源产品等技术的掌握,可见,区块链开发对于算法以及技术的的要求还是很高的,这明显与其他的技术不同,因此找到一家合适的开发公司来合作区块链技术开发非常必要,那怎么找到一家合适的公司来提供区块链技术支持呢?
211 0
为抵抗病毒感染,国内研究团队找到新型调控因子EGCG
据李涛表示,国际上许多大的制药集团和研究团队都在倾力寻找cGAS抑制剂。
895 0
|
供应链 物联网 运维
阿里云中台技术应用新尝试,破解德恩精工离散制造“三难题”
3月29日,德恩精工科技股份有限公司宣布和阿里云合作已取得阶段性成果。通过阿里云中台技术应用,公司的销售、库存管理、生产排程、智能供应链等都有不同程度的提升。
5624 0
研究发现尼克酸可逆甲酯化参与NAD在植物组织间的长距离运输
王国栋研究组前期的研究表明,NA的O-位糖基化修饰可能保护植物细胞免受种子萌发过程中NA过度积累所造成的毒害,且NAOGT活性是在十字花科植物进化过程中才逐渐获得,该成果为进一步研究Preiss-Handler途径如何对陆生植物在进化过程中提供的选择优势奠定基础。
1578 0