AI 时代的隐私保护:企业收集用户数据,只靠“匿名”是不够的

简介:

当苹果在 WWDC 2016 的主题演讲中,讲到“差分隐私 (Differential Privacy)”这个密码学专有名词的时候,只有少数人意识到,苹果又走在了时代前列。

大部分中外观察者都认为,苹果为人工智能时代所做的努力不够,它依然是一家以硬件设备为核心的公司,对于为更大规模的用户提供服务不感兴趣(例如 iMessage等软件均没有 Android 版),所以等人工智能技术得以真正崭露头角的时候,很可能难以追赶 Google、Facebook、亚马逊和微软。

这或许是对的。但苹果在解决人工智能时代的隐私保护难题上,又似乎比其他科技巨头,走得更远。

人工智能依赖于机器学习(深度学习)算法,而机器学习又需要大规模的训练数据,所以向用户搜集数据比以往更加重要。

AI 时代的隐私保护:企业收集用户数据,只靠匿名是不够的

如今,当你向一家互联网公司询问,你们收集来的用户信息会不会侵犯用户隐私的时候,行业标准答案是:

1、收集用户信息是必要的,这样有助于改善产品或服务。

2、我们是匿名收集用户信息的,并不保存任何用户的身份信息。

“匿名收集”这个答案,作为挡箭牌非常好用。外行都会被它唬住,以为匿名就意味着无法关联到具体的某个用户的信息。

但是对这个行业稍有了解的人,都应该清楚,匿名并不能完全保证用户的隐私安全。最经典的案例莫过于,Netflix 曾放出“经过匿名处理的”上亿条电影评分数据,“仅仅保留了每个用户对电影的评分和评分的时间戳”,希望通过竞赛的形式,找到更好的影片推荐算法。但是 2009年,德州大学的两位研究人员,通过这些匿名数据与公开的IMDB数据做对比,成功将匿名数据与具体的用户对应了起来。Netflix 不得不取消了,这项原计划每年举行的竞赛。

苹果想把(一定会收集用户信息的)科技公司在隐私保护方面的级别,提升到新的高度。而“差分隐私 (Differential Privacy)”,正是它找到的答案。这项密码学前沿技术的基本原理,就是向包含个体信息的大量数据集里注入噪音(或者说扰动),目标是保证每个个体信息都无法泄露,同时这个数据集的统计学信息依然可以被外界分析。

科学家们正在研究,究竟注入多少噪音,可以实现隐私保护和数据分析的最佳平衡。

不出意外的话,苹果将成为第一个真正大规模使用这项“差分隐私 (Differential Privacy)”算法的公司。但是也有学者表达了自己的担心,他们认为这项技术前景可期,但还没有成熟到大规模商用的时候。

AI 时代的隐私保护:企业收集用户数据,只靠匿名是不够的

也有人猜测,苹果应该与微软达成了某种私下协议,因为这项“差分隐私 (Differential Privacy)”算法的提出者,来自微软研究院。苹果在 WWDC 上引用了一名大学教授对苹果使用该算法的看法——“使用这项算法说明苹果很有远见,苹果在隐私保护方面领先其他科技公司”,而这名教授是《The Algorithmic Foundations of Differential Privacy》(差分隐私的算法基础)一书的两个作者之一,另一位就是微软的研究员。

一个可能的情况是,研究这项算法的大公司不止苹果一家,只不过它是最先表明积极态度的,至少在舆论方面占得先机。

总结一下。读完本文,你只需要知道“匿名收集信息”并不能回答互联网公司如何保护用户隐私的问题,就可以了。就像亚马逊CEO贝佐斯在 Re/code 大会上讲的那样,保护隐私是这个时代的难题。只不过,愿意给出新解法的公司,却少得可怜。


本文转自d1net(转载)

相关文章
|
2月前
|
存储 机器学习/深度学习 人工智能
打造企业智能体(AI Agent)的重要技术-向量数据库
本篇介绍的是为通用大模型增加专业业务能力的重要技术:向量数据库
打造企业智能体(AI Agent)的重要技术-向量数据库
|
2月前
|
人工智能 算法 数据可视化
AI Earth ——开发者模式案例2:Landsat系列影像数据去云
AI Earth ——开发者模式案例2:Landsat系列影像数据去云
37 3
|
1月前
|
机器学习/深度学习 存储 人工智能
为什么AI处理私有数据,需要使用向量数据库
大语言模型通过概率和向量数据库查询来生成高质量内容,当预测概率低于阈值时,利用相似性从本地数据中获取信息,向量数据库通过向量化、表示、查询、搜索和解码等步骤,帮助模型处理未知数据。
|
3月前
|
人工智能 监控 算法
【AI 现况分析】AI 应用导致的隐私问题分析
【1月更文挑战第27天】【AI 现况分析】AI 应用导致的隐私问题分析
|
3月前
|
人工智能 弹性计算 自然语言处理
【Hello AI】AIACC-ACSpeed性能数据
本文展示了AIACC-ACSpeed的部分性能数据,相比较通过原生DDP训练模型后的性能数据,使用AIACC-ACSpeed训练多个模型时,性能具有明显提升。
|
1月前
|
人工智能 搜索推荐 机器人
Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
【2月更文挑战第24天】Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
33 2
Rasa: 帮助企业更快搭建“AI对话助手”的低代码平台
|
2天前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
【AI大模型应用开发】【LangChain系列】实战案例4:再战RAG问答,提取在线网页数据,并返回生成答案的来源
28 0
|
14天前
|
机器学习/深度学习 数据采集 人工智能
|
16天前
|
人工智能 Cloud Native 算法
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
AI与云数据库的深度结合是数据库发展的必然趋势,基于AI能力的加持,云数据库未来可以实现更快速的查询和决策,帮助企业更好地利用海量数据进行业务创新和决策优化。
数据之势丨AI时代,云原生数据库的最新发展趋势与进展
|
18天前
|
人工智能 安全 数据库
AI日报:这种病毒从生成式AI工具中窃取您的数据
AI日报:这种病毒从生成式AI工具中窃取您的数据
14 0
AI日报:这种病毒从生成式AI工具中窃取您的数据