50万美元冠军成绩被莫名取消,Facebook热门数据竞赛引争议

简介: Facebook AI 团队今天宣布了首个 Deepfake 检测挑战赛(DFDC)的结果,第一名算法的识别准确率达 82.56%。然而比结果更加耐人寻味的是,原本获得头名的团队成绩被取消了。

本届 Deepfake 比赛,主办方 Facebook 开出了共计百万美元的奖金,其中头名团队可以获得 50 万美元。在这项赛事中,数据科学家们需要通过算法检测出使用 Deepfake 技术换脸的「虚假图像」,帮助阻止恶意篡改的图片误导他人。


微信图片_20211203181053.jpg

Deepfake 技术通过深度学习算法可以实现换脸、换表情,时有通过这种技术制造的假新闻传出,近年来已越来越让人们感到担忧。


丰厚的奖金,热门的研究领域让 DFDC 在去年 9 月宣布以来受到了业内的广泛关注。这项比赛在去年 12 月的 NeurIPS 2019 大会上公布了数据集并正式开始,今年 3 月 31 日结果提交正式截止。据统计,这一在著名数据竞赛平台 Kaggle 上进行的比赛吸引了 2114 名参与者,并获得了 3.5 万种检测算法,最终得出的最高准确率达 82.56%,整体平均准确度为 65.18%。


在赛后 Facebook 表示,Deepfake 检测仍然是一个「未解决的问题」。


成功举办的赛事本是一件可喜可贺的事情,Facebook 还将获胜团队的方法以及竞赛数据集写成了论文,计划在下周举行的 CVPR 2020 上向人们进行介绍。然而事情没有这么简单,原排名第一团队「All Faces Are Real Team」的抗议出现在 Kaggle 社区上,成为了人们关注的焦点。


在这场比赛中,原本排名第一的团队因为数据的原因,优势方案被取消成绩,最终他们的第二方案获得了第七名。该团队的成员表示,在过去两个月中,这一团队与 Facebook 进行了多轮接触,但没有获得令两方信服的结果。


今天,该团队对此事发表了一份声明,完整声明如下:


致 Kaggle、Facebook 托管团队和各位参赛者们:


首先,我们要向 Kaggle 和 Facebook 托管团队表示感谢。感谢他们创建了这一数据集以及举办本次竞赛,并在此向所有最终获奖者表示祝贺。


我们想在这里进一步解释一下,关于我们的获胜解决方案无效的问题。以及我们第二方案在 LB 上的情况变动。


为了应对 Private LB 的激烈竞争,我们准备了两个解决方案,最终分别获得 0.42320 和 0.44531 的 Private LB 分数。对于在 Public LB 上得分更高的 0.44531 方案,我们仅使用了竞赛数据和 12 个模型的未加权均值:这是我们在 LB 上保持第七名位置的方案。对于我们最初的获奖方案(0.42320),我们将使用竞赛数据训练的 6 个模型和使用一些外部数据训练的 9 个模型混合在了一起。


微信图片_20211203181613.jpg

比赛官方最终公布的前十名成绩,All Faces Are Real 排名第七,但这只是该队提交的第二个成绩。



在这个最初获胜的模型中,我们使用了这些外部数据:


  • flickrface 数据集:我们使用了该数据集尺寸调整后的版本。其中一些图像不允许用于商业用途,我们选用的是原始 GitHub 上允许商业使用的图像,并按照许可类型和本次竞赛规范进行训练。许可包括以下几种:CC-BY, Public Domain Mark 1.0, Public Domain CC0 1.0,  U.S. Government Works。


  • Youtube 视频图像:按照 CC-BY 许可从一些 Youtube 视频中创建了人脸图像数据集,该许可已标明允许用于商业用途。


我们选用这些数据源时,确信它们符合外部数据使用的相关规则,尤其是外部数据「必须可供竞赛的所有参赛者用于比赛目的,其他参与者可无偿使用」,在外部数据的其他声明中,它们必须可用于商业用途,不局限于教学用途。
但在我们与 Facebook 以及 Kaggle 的申辩过程中,我们被告知尽管符合以上规定,却违反了「获胜作品提交文档」的规定:


获胜作品提交文档(竞赛专门规则第 4 部分)
除了遵循 Kaggle 文档指南之外,获胜作品提交文档还必须遵循以下规则:
A. 如果提交文档的任何部分描述、标识或包括了非本次参与者的任何人,则必须具备所描述、标识或包括的个人的许可和授权,并且您需要根据要求提供书面形式的确认证明给竞赛赞助商和 PAI。
B. 提交的文档不得侵犯、挪用、有损第三方的任何权利,包括但不限于版权(包括精神权利)、商标、商业机密、专利、隐私权或公开权。


具体来说,我们被(Facebook)要求提供出现在我们外部数据集中的每个人的附加许可。但这些数据来自公共数据集,所以我们未出示其中每一个人的具体书面许可,也无法识别这些人。我们在竞赛过程中,没有意识到竞赛的外部数据应属于「文档」以及外部数据规则,因此也未从上述人员那里得到这些许可。


我们怀疑大多数参赛者也没有意识到这些附加限制的存在——大致观察了一下,并没有哪个参赛方案在外部数据方面满足上述要求。在竞赛中,有关外部数据使用的规则被反复申明多次,这让我们好奇,为什么 Kaggle 却没有机会讲清楚外部数据必须额外遵循获胜提交文档这一更加严格的规则。


另一个问题是,Facebook 感觉我们的某些标记为 CC-BY 的外部数据「明显侵犯了第三方的权利」,目前不太清楚他们指的是哪些数据。即使事实如此,Kaggle 团队也应该追查并验证发布该数据集的人是否有权利这样做,以及我们为了竞赛文档的提交必须聘请权利清算服务——对方建议在提交竞赛成绩之前将外部数据传递给我们的律师,以确保没有侵权。


尽管我们认为这些额外的规则本可以在比赛中阐明,并且希望 Kaggle 在以后的比赛中在开始就阐明这些规则,但我们知道在这种情况下我们无能为力。我们与 Kaggle 和 Facebook 进行了建设性的交流,我们对此表示感谢。在电话会议后大家一致同意,由于我们没有故意破坏任何规则,因此应该保留未使用任何外部数据的提交内容,而仅取消获胜的提交内容的资格。


尽管如此,我们对花费数月在比赛中获得如此结果仍然非常失望。成功的 Kaggle 竞赛依赖于竞争对手和 Kaggle 之间的信任,只有信任才能让我们公平地解释和执行规则,但这种信任已被破坏。


Giba、Mikel、Yifan、Gary 与 Qishen

All Faces are Real


没有触犯任何规则却被取消了成绩,还要求参赛队伍提交额外数据集里出现人物每个人肖像的授权许可,facebook 这样「魔性」的要求让参赛队伍在过去两个月的交涉过程中身心俱疲。这一事件爆出后立即引发了社区的大量讨论,Facebook 对于头名团队的奇怪要求成为了主要槽点:


微信图片_20211203184112.jpg


英伟达资深系统软件工程师,Kaggle Grandmaster 获得者 Bojan Tunguz 对此表示:「几乎所有计算机视觉研究都依赖于预先训练的模型,这些模型显然已经在有人类照片的数据集上进行了训练。如果我们需要所有这些人的明确同意才能进行研究,那么就不会有什么开放科学。」


根据 Kaggle 条款,除非法律禁止,否则你与任何竞赛实体因为数据竞赛产生的纠纷,任何奖项的确定都不得诉诸于任何形式的集体诉讼。因此这一争议目前看来无法通过法律途径来解决了。


但 All Faces Are Real Team 的成员表示,已经在寻求律师帮助,但是作为参赛选手,法律上受到的保护有限。


参考链接:

https://www.kaggle.com/c/deepfake-detection-challenge/discussion/157983


https://ai.facebook.com/blog/deepfake-detection-challenge-results-an-open-initiative-to-advance-ai/

相关文章
|
6月前
|
数据采集 机器学习/深度学习 Java
数据猎手:使用Java和Apache HttpComponents库下载Facebook图像
本文介绍了如何使用Java和Apache HttpComponents库从Facebook获取图像数据。通过设置爬虫代理IP以避免限制,利用HttpClient发送请求,解析HTML找到图像链接,然后下载并保存图片。提供的Java代码示例展示了实现过程,包括创建代理配置、线程池,以及下载图片的逻辑。注意,实际应用需根据Facebook页面结构进行调整。
数据猎手:使用Java和Apache HttpComponents库下载Facebook图像
|
监控 安全 数据挖掘
苹果封杀谷歌、Facebook:科技巨头涉嫌收集用户隐私数据
在封杀了 Facebook 之后,昨天苹果又宣布关闭谷歌的内部 iOS 应用分发权限。目前测试版本的谷歌地图、环聊(Hangouts)、Gmail 等程序已经无法在苹果手机上运行了,此外那些只对谷歌员工开放的内部应用程序,如用来坐班车的 Gbus 和点餐 app 也已无法使用。
176 0
苹果封杀谷歌、Facebook:科技巨头涉嫌收集用户隐私数据
|
机器学习/深度学习 人工智能 安全
蚂蚁安全实验室斩获NeurIPS & Facebook AI联合竞赛冠军
12月10日,由国际人工智能顶会NeurIPS 与 Facebook AI联合举办的图像相似匹配竞赛ISC2021落下帷幕,本次比赛共有1635支参赛队伍参加,是今年NeurIPS会议上最具影响力的比赛之一。来自蚂蚁集团的TitanShield Team(titanshield2)以超越第二名10个百分点的成绩斩获图像表征赛道冠军。据悉,此次夺冠团队采用的技术方案是由蚂蚁集团独立自研的、“基于特征兼容自监督学习框架”的预训练模型,能够针对性地解决内容安全风控领域常见的敏感信息更迭速度快、风控模型训练不及时等问题。作为可信AI技术研究及应用中的一环,该技术上线后可降低80%的图像对抗风险,将有助
200 0
Facebook“背锅”,第三方公司泄露5.4 亿条Facebook数据
Facebook需要保护第三方抓取数据的安全吗?
456 0
「镁客早报」Facebook再曝数据漏洞;分析师预测谷歌亚马逊明年将推出AirPods竞品
因为一个漏洞,Facebook上有680万用户的私人照片被暴露给不应该看到它们的应用程序。
413 0
|
安全 数据安全/隐私保护 开发者
Facebook采用加密措施防止出现数据泄漏
北京时间10月24日,据国外媒体报道,为了减轻最近发现的安全问题,Facebook宣布允许开发者处理用户信息。Facebook工程师Mike Vernal在公司的开发者博客中说,Facebook开始使用加密工具来处理第三方应用程序中的用户ID信息。
1200 0
【数据通天塔来了】谷歌、Facebook、微软、推特四巨头联手,打通全球数据壁垒!
今天,谷歌、Facebook、微软和Twitter四大互联网巨头联手宣布了一个“数据传输大计”,旨在号召不同平台间数据的无障碍传输。可移植性和互操作性是云技术创新和竞争的核心,如果真能得以实现,这无疑是一个伟大历程的开端!
1752 0
|
开发者
Facebook 被指收集用户数据:通过照片和文本
北京时间5月25日消息,在加利福尼亚州进行的对Facebook泄露用户信息一案中,法院对Facebook提起一项新的诉讼,指控该公司通过App收集了用户及他们朋友的信息。 上周向加利福尼亚州圣马特奥市高级法院提起的该项诉讼是2015年由现已停止运营的创业公司Six4Three向Facebook提起诉讼的一部分。
1118 0