【Ian Goodfellow亲授】GAN论文投稿指南,从了解评审要点开始

简介: 每年在机器学习相关的顶会中,有关生成对抗网络GAN的理论和实证研究论文非常多,如何评估这些论文的新颖性,如何评估模型是否有真正的突破,以及如何避免埋没好论文,是值得关注的问题。GAN的提出人、谷歌工程师Ian Goodfellow近日发表一系列推文,谈论这些问题的解决方法,以及他对目前GAN进展的一些忧虑。

有许多关于 GAN 如何工作的理论或实证研究论文,关于如何用 GAN 做新奇而有趣的事情的论文(例如关于应用在无监督翻译的第一篇论文),新的度量标准等等。但这个主题不是关于那些。

还有很多关于 GAN 的文章作为更大系统的一部分,比如半监督学习的 GAN,差分隐私,数据集增强等等。这个帖子也不是关于那些 --- 因为他们可以以更大的系统的评测标准来衡量。

这个主题是关于一些新的方法,这些方法一般会使 GAN 更可靠地训练或生产更好的样本。

如何评估GAN论文的新颖性

8481c8f592b7f349aa84a1de5c171db681516edf 我的第一个建议是,GAN 论文的审稿人应该阅读 “ Are GANs Created Equal? ” 这篇文章,它解释为什么这方面的实证工作很难以及如何正确的进行研究。
8481c8f592b7f349aa84a1de5c171db681516edf 另一篇关于背景知识的好文章是 “ A note on the evaluation of generative models ”,它解释了为什么模型可能生成很好的样本但是却有较差的 likelihood,反之亦然,以及其他衡量生成模型指标的问题 。
8481c8f592b7f349aa84a1de5c171db681516edf GAN 论文的一个难点是评估新颖性。 有很多论文提出了 GAN 的改进,但很难跟踪所有这些改进,并区分一种新方法是否真的创新。 试着用 4-5 种方式来重新阐述这个想法,并用谷歌搜索,看它是否已经被提出。
8481c8f592b7f349aa84a1de5c171db681516edf 网上一个好的资源去跟踪这些 GAN 变体是 GAN zoo:https://github.com/hindupuravinash/the-gan-zoo

参考:Ian Goodfellow 推荐:GAN 动物园——GAN 的各种变体列表(下载)

如果提出的方法不是真正的新方法,那么论文可能还是有价值的,但审稿人应

该确保论文正确地 acknowledge 以前的工作。

评估GAN性能的指标


8481c8f592b7f349aa84a1de5c171db681516edf 就指标而言,Frèchet Inception Distance(或其 intra-class 版本)可能是目前评估通用 GAN 性能的最佳指标。 对于除 ImageNet 以外的数据集,使用 Inception 之外的模型来定义距离也是可以的。
8481c8f592b7f349aa84a1de5c171db681516edf 一些专注于特殊情况的论文可能会包含其他指标(例如,具有 Real NVP generator 的 GAN 可以实际上报告准确的 likelihood),但是如果论文没有报告 FID,我希望它能够很好地说明为什么。
8481c8f592b7f349aa84a1de5c171db681516edf 很多论文都鼓励读者通过查看样本来形成他们对论文方法的看法。 这通常是一个不好的迹象。
8481c8f592b7f349aa84a1de5c171db681516edf 我知道使用样本来证明情况有所改善主要是来说明,当前方法可以从以前的技术无法解决的领域生成样本。
8481c8f592b7f349aa84a1de5c171db681516edf 例如,使用单个 GAN 生成 ImageNet 样本非常困难,许多论文显示的基本上是失败的尝试。 SN-GAN 成功地从所有类别制作可识别的样本。 由此我们知道 SN-GAN 是一项重大改进。
8481c8f592b7f349aa84a1de5c171db681516edf (这种改进仍然有可能来自于除了所提出的方法以外的其他因素,例如新的更大的网络架构等等)
8481c8f592b7f349aa84a1de5c171db681516edf 许多论文展示了来自 CIFAR-10 或 CelebA 等数据集的样本,想要让审稿人留下深刻的印象。对于这些我从来不知道我想要寻找什么。这些任务大都解决了,所以他们大部分都失去了意义。
8481c8f592b7f349aa84a1de5c171db681516edf 我也不知道如何将有一种微小缺陷的图像,和另一种图像质量上有不同的小缺陷进行对照——诸如是有一点摇摆(wobble)好,还是一点点棋盘格(checkerboarding)更好?

8481c8f592b7f349aa84a1de5c171db681516edf因此,我通常只会将 CelebA,CIFAR-10 上生成的样本,视为仅是为了对于方法不会崩的完整性检查(sanity-check)。

baseline和复现模型

8481c8f592b7f349aa84a1de5c171db681516edf 审稿人应该对任何已经复现了 baseline 的人非常怀疑 。有很多微妙的方法来搞砸深度学习算法,而作者有动机不是非常仔细地检查复现的 baseline。
8481c8f592b7f349aa84a1de5c171db681516edf 通常, 至少有一个 baseline 应该是另一篇论文发表的结果 ,因为其他论文的作者有动机来获得好的结果。 这样评估至少是动机相容的(incentive-compatible)。
8481c8f592b7f349aa84a1de5c171db681516edf 审稿人应该检查其他论文复现的模型是否执行了相同任务,并检查他们的 score。因为这种情况非常常见:引用别人论文,然后显示比原论文实际报告的更糟糕的图像 / 分数。

8481c8f592b7f349aa84a1de5c171db681516edf当然,其他领域也会在故意打压(sandbagging)baseline:

074b4f761d1af55927960345e78252c735239fdf

每年当写论文的时候,大家就很方(wu)便(chi)的把 baseline 弄差了

8481c8f592b7f349aa84a1de5c171db681516edf 但我觉得这对 GAN 论文特别不利。
8481c8f592b7f349aa84a1de5c171db681516edf 有时,如果一篇论文研究一项新任务或一项以前研究过的任务中很少评估过的方面,作者有必要实施他们自己的 baseline。 在这种情况下,可能论文的一大半部分应该致力于证明 baseline 是正确的
8481c8f592b7f349aa84a1de5c171db681516edf解释所有超参数来自何处非常重要 。通常新方法看起来像是改进,但其实是因为作者花费了更多时间非正式地优化新方法的超参数
8481c8f592b7f349aa84a1de5c171db681516edf 成就解锁:最大 Twitter 线(thread)长度。 我会另开一贴


原文发布时间为:2018-03-28
本文作者:Ian Goodfellow
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
相关文章
|
机器学习/深度学习 自然语言处理 搜索推荐
SIGIR 2022 | 推荐系统相关论文分类整理(三)
SIGIR 2022 | 推荐系统相关论文分类整理(三)
1544 0
|
30天前
|
机器学习/深度学习 人工智能
斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
斯坦福大学研究发现,顶级学术会议评审内容中有一部分可能由大型语言模型如ChatGPT生成,揭示AI对学术领域的影响,引发学术诚信和评审质量关注。研究团队通过新框架“分布式GPT量化”更准确检测AI参与度,发现AI在评审紧迫、无引用及低互动场景中更常见,可能影响评审质量和多样性。尽管AI能提升效率,但也可能导致同质化和学术不端。该研究强调了在利用AI的同时保持学术评审质量的重要性。
14 3
斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
500篇论文!最全代码大模型综述来袭
11月14日,蚂蚁集团联合上海交通大学发布55页代码大模型综述,覆盖超过50个模型、30个下游任务、500篇参考文献,全方位总结大语言模型在代码相关应用中的最新进展与挑战。
656 0
|
5月前
|
机器学习/深度学习 人工智能 测试技术
三篇论文:速览GPT在网络安全最新论文中的应用案例
三篇论文:速览GPT在网络安全最新论文中的应用案例
129 0
|
5月前
|
机器学习/深度学习 自然语言处理 算法
2023无监督摘要顶会论文合集
2023无监督摘要顶会论文合集
112 0
|
11月前
|
机器学习/深度学习 人工智能 机器人
Nature给学术界立规矩:ChatGPT等大模型不可以成为作者
Nature给学术界立规矩:ChatGPT等大模型不可以成为作者
|
11月前
|
机器学习/深度学习 存储 自然语言处理
ICLR 2022—你不应该错过的 10 篇论文(下)
ICLR 2022将于2022年 4 月 25 日星期一至 4 月 29 日星期五在线举行(连续第三年!)。它是机器学习研究领域规模最大、最受欢迎的会议之一,它汇集了超过 1000 篇论文、19 个研讨会和 8 个特邀报告。主题涵盖 ML 理论、强化学习 (RL)、计算机视觉 (CV) )、自然语言处理 (NLP)、神经科学等等。
94 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
ICLR 2022—你不应该错过的 10 篇论文(上)
ICLR 2022将于2022年 4 月 25 日星期一至 4 月 29 日星期五在线举行(连续第三年!)。它是深度学习研究领域规模最大、最受欢迎的会议之一,它汇集了超过 1000 篇论文、19 个研讨会和 8 个特邀报告。主题涵盖 ML 理论、强化学习 (RL)、计算机视觉 (CV) )、自然语言处理 (NLP)、神经科学等等
153 0
ICLR 2022—你不应该错过的 10 篇论文(上)
|
机器学习/深度学习 存储 人工智能
SIGIR 2022 | 推荐系统相关论文分类整理(一)
SIGIR 2022 | 推荐系统相关论文分类整理(一)
1780 0
SIGIR 2022 | 推荐系统相关论文分类整理(一)
|
机器学习/深度学习 搜索推荐 算法
SIGIR 2022 | 推荐系统相关论文分类整理(二)
SIGIR 2022 | 推荐系统相关论文分类整理(二)
896 0

热门文章

最新文章