本届 Deepfake 比赛,主办方 Facebook 开出了共计百万美元的奖金,其中头名团队可以获得 50 万美元。在这项赛事中,数据科学家们需要通过算法检测出使用 Deepfake 技术换脸的「虚假图像」,帮助阻止恶意篡改的图片误导他人。
Deepfake 技术通过深度学习算法可以实现换脸、换表情,时有通过这种技术制造的假新闻传出,近年来已越来越让人们感到担忧。
丰厚的奖金,热门的研究领域让 DFDC 在去年 9 月宣布以来受到了业内的广泛关注。这项比赛在去年 12 月的 NeurIPS 2019 大会上公布了数据集并正式开始,今年 3 月 31 日结果提交正式截止。据统计,这一在著名数据竞赛平台 Kaggle 上进行的比赛吸引了 2114 名参与者,并获得了 3.5 万种检测算法,最终得出的最高准确率达 82.56%,整体平均准确度为 65.18%。
在赛后 Facebook 表示,Deepfake 检测仍然是一个「未解决的问题」。
成功举办的赛事本是一件可喜可贺的事情,Facebook 还将获胜团队的方法以及竞赛数据集写成了论文,计划在下周举行的 CVPR 2020 上向人们进行介绍。然而事情没有这么简单,原排名第一团队「All Faces Are Real Team」的抗议出现在 Kaggle 社区上,成为了人们关注的焦点。
在这场比赛中,原本排名第一的团队因为数据的原因,优势方案被取消成绩,最终他们的第二方案获得了第七名。该团队的成员表示,在过去两个月中,这一团队与 Facebook 进行了多轮接触,但没有获得令两方信服的结果。
今天,该团队对此事发表了一份声明,完整声明如下:
致 Kaggle、Facebook 托管团队和各位参赛者们:
首先,我们要向 Kaggle 和 Facebook 托管团队表示感谢。感谢他们创建了这一数据集以及举办本次竞赛,并在此向所有最终获奖者表示祝贺。
我们想在这里进一步解释一下,关于我们的获胜解决方案无效的问题。以及我们第二方案在 LB 上的情况变动。
为了应对 Private LB 的激烈竞争,我们准备了两个解决方案,最终分别获得 0.42320 和 0.44531 的 Private LB 分数。对于在 Public LB 上得分更高的 0.44531 方案,我们仅使用了竞赛数据和 12 个模型的未加权均值:这是我们在 LB 上保持第七名位置的方案。对于我们最初的获奖方案(0.42320),我们将使用竞赛数据训练的 6 个模型和使用一些外部数据训练的 9 个模型混合在了一起。
比赛官方最终公布的前十名成绩,All Faces Are Real 排名第七,但这只是该队提交的第二个成绩。
在这个最初获胜的模型中,我们使用了这些外部数据:
- flickrface 数据集:我们使用了该数据集尺寸调整后的版本。其中一些图像不允许用于商业用途,我们选用的是原始 GitHub 上允许商业使用的图像,并按照许可类型和本次竞赛规范进行训练。许可包括以下几种:CC-BY, Public Domain Mark 1.0, Public Domain CC0 1.0, U.S. Government Works。
- Youtube 视频图像:按照 CC-BY 许可从一些 Youtube 视频中创建了人脸图像数据集,该许可已标明允许用于商业用途。
我们选用这些数据源时,确信它们符合外部数据使用的相关规则,尤其是外部数据「必须可供竞赛的所有参赛者用于比赛目的,其他参与者可无偿使用」,在外部数据的其他声明中,它们必须可用于商业用途,不局限于教学用途。
但在我们与 Facebook 以及 Kaggle 的申辩过程中,我们被告知尽管符合以上规定,却违反了「获胜作品提交文档」的规定:
获胜作品提交文档(竞赛专门规则第 4 部分)
除了遵循 Kaggle 文档指南之外,获胜作品提交文档还必须遵循以下规则:
A. 如果提交文档的任何部分描述、标识或包括了非本次参与者的任何人,则必须具备所描述、标识或包括的个人的许可和授权,并且您需要根据要求提供书面形式的确认证明给竞赛赞助商和 PAI。
B. 提交的文档不得侵犯、挪用、有损第三方的任何权利,包括但不限于版权(包括精神权利)、商标、商业机密、专利、隐私权或公开权。
具体来说,我们被(Facebook)要求提供出现在我们外部数据集中的每个人的附加许可。但这些数据来自公共数据集,所以我们未出示其中每一个人的具体书面许可,也无法识别这些人。我们在竞赛过程中,没有意识到竞赛的外部数据应属于「文档」以及外部数据规则,因此也未从上述人员那里得到这些许可。
我们怀疑大多数参赛者也没有意识到这些附加限制的存在——大致观察了一下,并没有哪个参赛方案在外部数据方面满足上述要求。在竞赛中,有关外部数据使用的规则被反复申明多次,这让我们好奇,为什么 Kaggle 却没有机会讲清楚外部数据必须额外遵循获胜提交文档这一更加严格的规则。
另一个问题是,Facebook 感觉我们的某些标记为 CC-BY 的外部数据「明显侵犯了第三方的权利」,目前不太清楚他们指的是哪些数据。即使事实如此,Kaggle 团队也应该追查并验证发布该数据集的人是否有权利这样做,以及我们为了竞赛文档的提交必须聘请权利清算服务——对方建议在提交竞赛成绩之前将外部数据传递给我们的律师,以确保没有侵权。
尽管我们认为这些额外的规则本可以在比赛中阐明,并且希望 Kaggle 在以后的比赛中在开始就阐明这些规则,但我们知道在这种情况下我们无能为力。我们与 Kaggle 和 Facebook 进行了建设性的交流,我们对此表示感谢。在电话会议后大家一致同意,由于我们没有故意破坏任何规则,因此应该保留未使用任何外部数据的提交内容,而仅取消获胜的提交内容的资格。
尽管如此,我们对花费数月在比赛中获得如此结果仍然非常失望。成功的 Kaggle 竞赛依赖于竞争对手和 Kaggle 之间的信任,只有信任才能让我们公平地解释和执行规则,但这种信任已被破坏。
Giba、Mikel、Yifan、Gary 与 Qishen
All Faces are Real
没有触犯任何规则却被取消了成绩,还要求参赛队伍提交额外数据集里出现人物每个人肖像的授权许可,facebook 这样「魔性」的要求让参赛队伍在过去两个月的交涉过程中身心俱疲。这一事件爆出后立即引发了社区的大量讨论,Facebook 对于头名团队的奇怪要求成为了主要槽点:
英伟达资深系统软件工程师,Kaggle Grandmaster 获得者 Bojan Tunguz 对此表示:「几乎所有计算机视觉研究都依赖于预先训练的模型,这些模型显然已经在有人类照片的数据集上进行了训练。如果我们需要所有这些人的明确同意才能进行研究,那么就不会有什么开放科学。」
根据 Kaggle 条款,除非法律禁止,否则你与任何竞赛实体因为数据竞赛产生的纠纷,任何奖项的确定都不得诉诸于任何形式的集体诉讼。因此这一争议目前看来无法通过法律途径来解决了。
但 All Faces Are Real Team 的成员表示,已经在寻求律师帮助,但是作为参赛选手,法律上受到的保护有限。
参考链接:
https://www.kaggle.com/c/deepfake-detection-challenge/discussion/157983
https://ai.facebook.com/blog/deepfake-detection-challenge-results-an-open-initiative-to-advance-ai/