GDPR到底是如何影响机器学习的?

简介: GDPR时代来临,你的机器学习模型还能训练吗?

一般数据保护条例(GDPR对数据科学产生了很大的影响。现在GDPR有99条正文条款和173篇声明(Recital),长而复杂,但是随着时间的推移以及条款的执行,它可能会变得更加复杂。同时,由于GDPR的存在,律师和隐私工程师将成为未来大型数据科学项目的核心组成部分。

fb9295e5a1a769172ccc4c670ddd162b8659fd8e

本文主要讨论GDPR与机器学习(ML)之间三个最常见的问题。

1.GDPR是否禁止机器学习?

总的来说,在GDPR生效后,ML不会在欧盟被禁止。

但是,从技术的角度来看,这个问题的答案是肯定的。GDPR作为法律条文,确实做出了对使用自动化决策的全面禁止的规定。当GDPR使用“自动化决策”这个术语时,该法规指的是任何模型都可以在没有人直接参与决策的情况下做出决定。这可能包括数据主体的自动“概要分析”,例如将其分类为“潜在客户”或“40-50岁男性”等特定组,以确定贷款申请人是否有资格获得贷款。

因此,GDPR对ML模型的产生的影响是在没有人直接参与决策制定的情况下,它们是否可以自动部署。如果可以自动部署,那么在大量的ML模型中这种自动部署的设置将会被默认禁止。尽管有许多律师或数据科学家确实反对过,但参与起草和解释GDPR的欧盟官方工作组还是坚持该项规定

当然,GDPR禁止ML也有例外情况。简单来说,该法规确定了使用自主决策合法的三个领域:合同处理的必要性,其他法律另行授权的情况,或数据主体明确同意的情况。

但是,让用户同意并不容易,用户可以同意许多不同类型的数据处理,并且他们也可以在任何时候撤销同意,这意味着用户同意需要细化和进一步的规范。

那么,GDPR是否真的禁止使用ML模型?当然不是,但在许多应用ML的例子中,它使得这些模型及其输入数据的部署和管理变得越来越困难。

2. ML有没有“解释权”

作者去年写了一篇专门讨论这个问题的文章。潜在的解释能力的存在可能会对数据科学产生巨大的影响,因为ML模型的预测能力很大程度上很难解释,即使有可能,也很难解释

在GDPR的第13-15条中反复声明,数据主体有权获得“有关所涉逻辑的有意义的信息”以及自动决策的“重要性和设想的后果”。然后,在GDPR的第22条中规定,数据主体有权利不受上述影响类型的影响。最后,作为该条例中包含的一项非约束性评论的一部分,第71条声明(Recital)表示,数据主体除了能够对这些决定提出质疑之外,还有权对自动决策做出解释。综上所述,这三项规定在数据主体和处理数据的模型之间创建了许多新的复杂的义务,这表明了一种相当强大的可解释性权利。

虽然理论上,欧盟监管机构可以以最严格的方式解释这些条款,但是现实中要想实现充分合理解释似乎是不可能的。欧盟监管机构甚至可以将这些条款解读为,当ML被用于在没有人为干预的情况下做出决定时,以及当这些决定对数据主体产生重大影响时,这些人有权获得关于正在发生的事情的一些基本形式的信息。在GDPR中被称为“有意义的信息”和“设想的后果”可能会在此背景下被读出。欧盟监管机构可能会将注意力集中在一个数据主体上,该数据主体基于有关模型的信息和其部署的上下文的相关信息,对数据的使用做出明智的决定。

3. 数据主体是否有能力要求模型在没有数据的情况下进行训练?

作者认为在实践中答案是否定的。在GDPR下,所有数据的使用都需要有法律依据,《条例》第6条规定了六个相应的依据。最重要的两个是“合法利益”的基础,以及用户明确同意使用该数据的地方。当处理的法律基础是后者时,数据主体将会保留对这些数据的极大控制权,也就是说,他们可以在任何时候撤销,而处理这些数据的法律依据将不再存在。

因此,如果一个组织从一个数据主体收集数据,用户同意将他们的数据用于训练一个特定模型,然后数据主体随后撤回该同意,那么用户何时可以强制模型重新训练新数据呢?

只有当该模型继续使用该用户的数据时,答案才会出现。正如GDPR的29条规定的那样,即使撤销同意后,撤回之前所发生的所有处理仍然合法。因此,如果这些数据被合法的用于创建模型或预测,那么这些数据所产生的任何东西都可能被保留下来。在实践中,一旦用一组训练数据创建了一个模型,训练数据就可以在不影响模型的情况下被删除或修改。

然而,从技术上讲,一些研究表明,模型可能会保留关于训练数据的信息,即使在训练数据被删除之后,这些信息仍然可能被发现,正如研究人员Nicolas Papernot等人所写的那样。这意味着,在某些情况下,在不重新训练模型的情况下删除数据不能保证训练数据不会被重新发现,或者不能保证原始数据不会被继续使用。

但是训练数据通过模型被重新发现几乎是不可能的。作者认为,这种重新发现只是在学术环境中进行的,与企业数据科学家的日常相差甚远。尽管这在理论上是有可能的,但这似乎是一个边缘案例,监管者和数据科学家只有在这种特定类型的实例变得更加现实的情况下才能解决这个问题。

数十款阿里云产品限时折扣中,赶紧点击领券开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译

文章原标题《how-will-the-gdpr-impact-machine-learning》

作者:Andrew Burt

译者:乌拉乌拉,审校:袁虎。

文章为简译,更为详细的内容,请查看原文文章

相关文章
|
网络协议 定位技术 网络架构
路由协议——直连路由、静态路由、缺省路由、路由优先级和路由度量、路由冗余和备份(浮动静态路由)
路由协议——直连路由、静态路由、缺省路由、路由优先级和路由度量、路由冗余和备份(浮动静态路由)
2054 2
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:智能垃圾分类与环境保护
使用Python实现深度学习模型:智能垃圾分类与环境保护 【8月更文挑战第7天】
400 2
|
12月前
|
关系型数据库 MySQL 数据库
一个 MySQL 数据库死锁的案例和解决方案
本文介绍了一个 MySQL 数据库死锁的案例和解决方案。
707 3
|
Java Spring
成功解决Initialization failed for ‘https://start.spring.io‘ Please check URL, network and proxy settings
这篇文章提供了解决Spring Initializr网站初始化失败问题的方法,包括检查URL、网络和代理设置。
成功解决Initialization failed for ‘https://start.spring.io‘ Please check URL, network and proxy settings
|
存储 算法 Linux
DNF和Yum
DNF和Yum
583 3
|
机器学习/深度学习 人工智能 自然语言处理
卷积神经网络(CNN):视觉识别的革命先锋
卷积神经网络(CNN)作为人工智能领域的一颗璀璨明珠,在计算机视觉中发挥着核心作用。CNN的发展历程展现了从生物学灵感到技术创新的转变,历经LeNet-5至AlexNet、VGGNet、ResNet等里程碑式的进步。其独特结构包括卷积层、池化层及全连接层,能够层层递进地提取特征并作出决策。CNN不仅在图像分类、目标检测等领域表现卓越,还在人脸识别、医学影像分析等方面展现出巨大潜力。尽管存在局限性,如对序列数据处理能力有限及解释性问题,但通过引入注意力机制、自监督学习等方法,CNN将持续演进,引领人工智能技术走向更加精彩的未来。
746 2
|
存储 人工智能 多模数据库
数据库技术前沿:探索其发展趋势与应用
一、引言 数据库技术作为现代信息技术体系中的关键一环,不仅为企业和组织提供了高效、安全的数据存储和管理手段,还在大数据、云计算、人工智能等前沿领域发挥着重要作用
|
数据可视化 数据挖掘 关系型数据库
R语言中的地理空间数据分析
【4月更文挑战第26天】R语言在地理空间数据分析中发挥着关键作用,拥有如"sp"、"sf"和"rgdal"等扩展包。
374 1
|
存储 算法 关系型数据库
【高阶数据结构】 B树 -- 详解
【高阶数据结构】 B树 -- 详解
|
Java
Java 文件处理完全指南:创建、读取、写入和删除文件详细解析
文件处理简介 文件处理是任何应用程序的重要部分。Java 提供了许多用于创建、读取、更新和删除文件的方法。 Java 文件处理 Java 中的文件处理主要通过 java.io 包中的 File 类完成。该类允许我们处理文件,包括创建、读取、写入和删除文件。
726 1