给机器下「遗忘咒」?谷歌发起首个机器遗忘挑战赛

简介: 给机器下「遗忘咒」?谷歌发起首个机器遗忘挑战赛
给机器来一杯「忘情水」,这算不算机器遗忘?

机器学习经常被提及,那你有听过机器遗忘吗?

机器学习的目的大家都了解,它能够帮助我们的工作提升效率。但是机器遗忘是何目的?难道是「弃学」?

现在,不仅关于机器话题的讨论变得火热,甚至出现专门为机器遗忘组织的挑战。

近日,谷歌 AI 宣布联合广泛的学界与业界研究团队,组织首个机器遗忘挑战赛(Machine Unlearning Challenge)。

至于举办这一机器遗忘挑战赛的目的,谷歌表示希望有助于推进机器遗忘的 SOTA 水平,并鼓励开发高效、有效和合乎道德的遗忘算法。

比赛内容都有啥?

具体地讲,该挑战赛考虑这样一个真实场景:其中一个年龄预测器在人脸图像数据上进行了训练,接着在训练后,训练图像的某个子集必须被遗忘,以保护相关个人的隐私或其他权利。

摘自 Face synaesthetics 数据集的图像以及年龄注释。

比赛将在 Kaggle 平台上举办,提交的作品将根据遗忘质量和模型实用性进行自动评分。

其中对于评估遗忘,本次挑战赛将使用受成员推理攻击(Membership inference attacks, MIAs)启发的工具,如 LiRa。MIAs 最初是在隐私和安全文献中开发,其目的是推断哪些示例是训练集的一部分。

直白地讲,如果遗忘成功,遗忘过的模型中将不包含被遗忘示例的痕迹,这会导致 MIA 失败,即攻击者无法获知被遗忘集实际上是原始训练集的一部分。

此外,评估中还将使用统计测试来量化「遗忘模型的分布」与从头开始重新训练的模型的分布的差异程度。

相关比赛的信息可以查阅以下两个链接:


或许有读者要问了,为什么在机器学习的浪潮中,还会有这样一股机器遗忘的「逆流」奔涌呢?

什么是机器遗忘

机器遗忘是机器学习的一个新兴领域,最终目的是消除一个训练模型特定训练样本子集的影响,即消除「遗忘集」(forget set)的影响。

此外,较为理想的遗忘算法在消除某些样本影响的同时,还应该保留其他有益的特性,比如在其余训练集上的准确性以及对保留样本的泛化性。

下图为遗忘学习的剖析。遗忘算法将一个预训练模型以及要遗忘的训练集中的一个或多个样本作为输入。然后基于该模型、遗忘集和保留集,遗忘算法会生成一个更新模型。理想遗忘算法生成的模型与没有遗忘集参与训练的模型没有区别。

其实,有一个很「暴力」的方法能够得到这种理想的模型,就是在排除遗忘集样本后,重新训练模型。这个「暴力」手段虽立竿见影,但并不可行,因为重新训练深度模型的成本实在太过高昂。

因此,遗忘学习算法应该是以训练好的模型作为基点,并对其进行调整,来消除所要求数据带来的影响。

机器遗忘学习不仅仅应用于保护用户隐私,还能够通过训练,删除训练模型中不准确或者过时的信息,甚至是异常或者有害的数据。当然,这比消除几个指定遗忘集难度大得多,这也意味着它更有用处,比如它可以通过纠正偏见或对属于不同群体的歧视来提高模型的公平性。

「清扫、清扫,全都扔掉」

为何要发展机器遗忘

大家都受益于网络信息的易得性,但是往往忽略了在整个网络上删除某一信息的艰难。这堪比将一捧沙子撒入海里,再从不断涌动的海水中将沙粒一个个捡起,更重要的是,这些沙粒有不断复制的可能。

由此可见,信息及时被删除了也能通过各种手段有所保留。

在网络中留下的足迹,虽可能不被查询,但印记永存。2012 欧盟委员会就曾公布草案提出数据主体应享有「被遗忘权」。这对大数据背景下互联网产业发展具有深远而广泛的影响。

更别说近期正火热的大型语言模型,更是以海量的数据集作为基础进行发展的。大模型对于训练集的细节内容会进行学习和记忆,其中不乏用户的隐私信息,这导致可能涉及的隐私风险更加严峻。

因此机器学习模型中的安全和隐私问题是研究者必定面临的挑战。

网友表示,这场挑战赛将推动隐私保护。

在这样艰难、复杂的条件下,机器遗忘应运而生,有关于它的讨论和学习也日益成为机器学习领域的焦点之一。

参考链接:https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.htmlhttps://unlearning-challenge.github.io/

相关文章
|
4月前
|
消息中间件 缓存 JSON
亚马逊SP-API开发实战:商品数据获取与操作
本文介绍了亚马逊SP-API接入流程,包括开发者注册、OAuth2.0认证示例及核心商品接口的使用。涵盖商品信息查询、批量查询、限流规则与错误处理,并提供最佳实践建议,如使用AWS Lambda与SQS实现高效数据同步。
亚马逊SP-API开发实战:商品数据获取与操作
|
7月前
|
Web App开发 Linux 数据库
Omnissa Horizon 8 2503 (ESB Release) - 虚拟桌面基础架构 (VDI) 和应用软件
Omnissa Horizon 8 2503 (ESB Release) - 虚拟桌面基础架构 (VDI) 和应用软件
517 8
Omnissa Horizon 8 2503 (ESB Release) - 虚拟桌面基础架构 (VDI) 和应用软件
|
机器学习/深度学习 算法 安全
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
本文提供了机器遗忘的全面定义、问题方程、精确与近似遗忘的概念,并分类总结了机器遗忘方法,讨论了其在联邦学习和终身学习中的应用,提出了未来研究方向,为机器遗忘研究领域奠定了理论基础并指出了实际应用的潜力与挑战。
957 5
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
|
5月前
|
存储 安全 Java
2025 年最新 40 个 Java 基础核心知识点全面梳理一文掌握 Java 基础关键概念
本文系统梳理了Java编程的40个核心知识点,涵盖基础语法、面向对象、集合框架、异常处理、多线程、IO流、反射机制等关键领域。重点包括:JVM运行原理、基本数据类型、封装/继承/多态三大特性、集合类对比(ArrayList vs LinkedList、HashMap vs TreeMap)、异常分类及处理方式、线程创建与同步机制、IO流体系结构以及反射的应用场景。这些基础知识是Java开发的根基,掌握后能为后续框架学习和项目开发奠定坚实基础。文中还提供了代码资源获取方式,方便读者进一步实践学习。
1599 2
|
9月前
|
机器学习/深度学习 运维 安全
联邦学习系统攻击与防御技术研究综述
联邦学习作为新兴技术,能解决分布式数据隐私泄露问题,广泛应用于各领域。但其在数据收集、训练和推理阶段存在安全与隐私威胁。本文围绕机密性、完整性和可用性,定义联邦学习的安全属性,系统综述攻击方式(投毒、对抗样本、推理攻击等)及防御手段(鲁棒性提升、隐私增强技术),并提出未来研究方向。
|
11月前
|
机器学习/深度学习 存储 人工智能
《迁移学习与联邦学习:推动人工智能发展的关键力量》
在人工智能发展中,迁移学习和联邦学习成为重要技术。迁移学习通过跨任务知识迁移,加速新任务学习,节省资源并解决数据稀缺问题;联邦学习则以分布式方式实现联合学习,保护数据隐私,促进多方合作。两者在提升模型性能、保障数据安全及推动AI创新方面发挥关键作用,为AI发展带来新机遇。
255 8
|
机器学习/深度学习 存储 缓存
【博士每天一篇文献-综述】Machine Unlearning Solutions and Challenges
本文综述了机器遗忘的解决方案和挑战,全面分类并分析了精确遗忘和近似遗忘方法,探讨了它们在隐私保护、安全性增强、模型适应性提升中的应用,并提出了评价指标和未来研究方向。
867 2
|
Linux 开发工具
【Linux快速入门(二)】Linux与ROS学习之编译基础(make编译)
【Linux快速入门(二)】Linux与ROS学习之编译基础(make编译)
383 0
|
机器学习/深度学习 存储 缓存
2024机器遗忘(Machine Unlearning)技术分类-思维导图
本文通过思维导图的形式,详细介绍了机器遗忘技术的分类、优缺点、面临的威胁和攻击以及防御机制,并探讨了评估机器遗忘系统有效性的方法,包括精确遗忘和近似遗忘技术,以及在数据隐私保护和法律遵从方面的应用。
1021 5
|
机器学习/深度学习 数据采集 人工智能
【自然语言处理(NLP)】基于LSTM实现谣言检测
【自然语言处理(NLP)】基于LSTM实现谣言检测,基于百度飞桨开发,参考于《机器学习实践》所作。
1564 1
【自然语言处理(NLP)】基于LSTM实现谣言检测