突发!ImageNet 数据集中的人脸全都变模糊了

简介: 2012年,人工智能研究人员在计算机视觉方面取得了巨大进步,被称为ImageNet的数据集至今仍被用于成千上万的人工智能研究项目和实验。但是上周ImageNet上的所有人脸都突然消失了,因为数据集管理者为了保护隐私决定模糊处理它们。

微信图片_20220112175908.png


ImageNet 数据集的管理者为如今深度学习的进步铺平了道路。现在,他们在保护人们的隐私方面又迈出了一大步:对数据集模糊处理 


微信图片_20220112175910.png


 2012年,人工智能研究人员在计算机视觉方面取得了巨大进步,这很大程度归功于一个异常庞大的图像集。


 这个数据集中有数以千计的日常物体、人物和图片中的场景,这些图片都是从网上搜集并用手工标记的。 这些被称为 ImageNet 的数据集至今仍被用于成千上万的人工智能研究项目和实验。 但是上周 ImageNet 上的所有人脸都突然消失了,因为负责管理数据集的研究人员决定模糊它们。


 正如 ImageNet 帮助开创了人工智能的新时代,要修复它也面临很多挑战,主要是对无数人工智能程序、数据集和产品的影响和挑战。 普林斯顿大学的助理教授 Olga Russakovsky 是 ImageNet 的负责人之一,他说: 「我们担心隐私问题。」


微信图片_20220112175912.png


在2012年,计算机科学家一直致力于能开发能够识别图像中物体的算法,ImageNet 就是为此而创建的。 


然后,一种叫做深度学习的技术,通过给神经网络添加标记的例子来「教」它,而且还被证明比以前的方法效果更好。


 从那时起,深度学习推动了人工智能的复兴,同时也暴露了这个领域的缺陷。 例如,面部识别已经被证明是深度学习的一个特别流行和有前景的应用,但它也是有争议的。 


出于对侵犯公民隐私的担忧,美国一些城市已经禁止政府使用这项技术,因为这些程序对非白人脸部的识别精确度较低。 ImageNet 包含了150万张图片和大约1000个标签。


它主要用于评估机器学习算法的性能,或者训练执行特殊计算机视觉任务的算法。 如今,它对243198张照片进行了模糊处理。


微信图片_20220112175915.jpg


Russakovsky 说 ImageNet 团队想要确定是否有可能在不改变识别对象的能力的情况下模糊数据集中的人脸。 


「人们在数据中是偶然出现的,因为他们恰好出现在描述这些物体的网络照片中,」她说。 换句话说,在一张显示啤酒瓶的图片中,即使喝啤酒的人的脸上有一个粉红色的污点,对啤酒瓶本身来说并无影响。 


在 ImageNet 更新的同时,发布了一篇研究论文,数据库背后的团队解释说,他们使用亚马逊的人工智能服务 Rekognition 模糊了面孔。


微信图片_20220112175920.png


然后,他们付钱给 Mechanical Turk 的员工确认并调整他们的选择。 


研究人员说,模糊脸部并不影响在 ImageNet 上训练的几种物体识别算法的性能。 他们还表明,用这些物体识别算法构建的其他算法也同样不受影响。 「我们希望这种概念验证为该领域更多的隐私意识视觉数据收集实践铺平了道路,」鲁萨科夫斯基说。


 2019年12月,ImageNet 团队删除了由人工标签引入的带有偏见的贬义词,因为一个名为挖掘 AI 的项目引起了人们对这个问题的关注。 该研究表明他们可以在数据集中识别个人,包括计算机科学研究人员。他们还发现其中包含色情图片。 


普拉布说,模糊脸是好事,但令人失望的是 ImageNet 团队没有承认他和比尔哈恩的工作。


Russakovsky 表示,论文的更新版本中将出现一条引文。 


模糊人脸仍然可能会对基于 ImageNet 数据训练的算法产生意外后果。例如,算法可能学会在搜索特定对象时寻找模糊的面孔。


 Russakovsky 说: 「需要考虑的一个重要问题是,当你部署一个基于面部模糊数据集的模型时,会发生什么情况。」 例如,在此数据集上训练的机器人可能会因为不能识别现实世界中的人脸而被抛弃。


 麻省理工学院的研究科学家 Aleksander Madry 已经发现了 ImageNet 的局限性。


他认为,一个人工智能模型在包含模糊人脸的数据集上训练,当显示包含人脸的图像时,可能会表现得很奇怪。


微信图片_20220112175922.png


他说: 「数据中的偏差可能非常微妙,但同时可能会产生重大的后果。这就是为什么在机器学习的背景下考虑鲁棒性和公平性如此棘手。」


不过最近国内「315」也在提AI公司侵犯隐私权的问题,还是希望各位AI公司在发展技术的同时,也能思考一下这些附带来的问题。


参考资料:https://www.wired.com/story/researchers-blur-faces-launched-thousand-algorithms/

相关文章
|
6月前
|
机器学习/深度学习 算法 数据库
KNN和SVM实现对LFW人像图像数据集的分类应用
KNN和SVM实现对LFW人像图像数据集的分类应用
103 0
|
存储 算法 数据库
一起聊聊图像质量和美学评估的数据集
图像质量和美学评估是计算机视觉领域中热点的研究问题,并且极具应用前景,可与众多实际应用深度结合。评价一张图片,主要从两个方向,一个是图像的质量,如像素、清晰度、有无噪声等,一个是图像的感觉,也就是美学,如构图、颜色、内容主体等。通过这两个方面就可以评价一张图片的好坏,通过计算机视觉算法,可以为图片自动评分,得分高的图片被认为较好,可以用于推荐和搜索等应用场景。本文主要聊聊一些关于图像质量和美学评估
11870 1
|
30天前
|
人工智能 计算机视觉
首次!用合成人脸数据集训练的识别模型,性能高于真实数据集
【10月更文挑战第9天】Vec2Face是一种创新的人脸图像合成方法,旨在解决现有方法在生成具有高区分度身份和广泛属性变化的人脸图像时的局限性。该方法通过使用样本向量作为输入,结合特征掩码自编码器和解码器,能够高效生成大规模人脸数据集,显著提升人脸识别模型的训练效果。Vec2Face在多个真实世界测试集上表现出色,首次在某些测试集上超越了使用真实数据集训练的模型。然而,该方法仍存在一些局限性,如生成的变化可能无法完全覆盖真实世界的多样性,且需要较高的计算资源。
17 2
|
4月前
|
计算机视觉
人脸的数据集介绍
【7月更文挑战第30天】人脸的数据集介绍。
24 4
|
6月前
|
机器学习/深度学习 自动驾驶 算法
图像识别中的scikit-learn:从像素到分类
【4月更文挑战第17天】本文介绍了如何使用Python的scikit-learn进行图像识别,包括图像预处理、特征提取(如HOG、SIFT)和分类器训练(如SVM、决策树)。通过一个示例展示了从像素数据到图像分类的完整流程,强调了预处理和特征提取的重要性。虽然scikit-learn在图像识别中有应用,但随着深度学习的发展,卷积神经网络在该领域展现出更强的性能,暗示了未来结合深度学习与scikit-learn的研究趋势。
|
机器学习/深度学习 算法 数据库
图像识别2:图像多分类实验
图像识别2:图像多分类实验
72 0
|
机器学习/深度学习 算法 计算机视觉
人证比对+图片相似度+MTCNN+FACENET+CNN
人证比对+图片相似度+MTCNN+FACENET+CNN
163 1
|
存储 机器学习/深度学习 编解码
使用训练分类网络预处理多分辨率图像
说明如何准备用于读取和预处理可能不适合内存的多分辨率全玻片图像 (WSI) 的数据存储。肿瘤分类的深度学习方法依赖于数字病理学,其中整个组织切片被成像和数字化。生成的 WSI 具有高分辨率,大约为 200,000 x 100,000 像素。WSI 通常以多分辨率格式存储,以促进图像的高效显示、导航和处理。 读取和处理WSI数据。这些对象有助于使用多个分辨率级别,并且不需要将图像加载到核心内存中。此示例演示如何使用较低分辨率的图像数据从较精细的级别有效地准备数据。可以使用处理后的数据来训练分类深度学习网络。
307 0
|
机器学习/深度学习 人工智能 监控
基于深度学习的人群密度检测系统(UI界面+YOLOv5+训练数据集)
基于深度学习的人群密度检测系统(UI界面+YOLOv5+训练数据集)
704 0
|
机器学习/深度学习 编解码 数据可视化
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
189 0