生成的图像数据集效果不好?也许你需要考虑内容分布的差异

简介: 图像风格相似远远不是全部
TB1YfNpTIfpK1RjSZFOXXa6nFXa.jpg

雷锋网(公众号:雷锋网) AI 科技评论按:大家都知道深度学习模型的表现会随着训练数据增加而提高,所以为了不断提高模型表现,模型本身的设计和训练数据扩增方面的研究也都非常多。对于图像相关的任务,传统上有基于变换的数据扩增方法,雷锋网 AI 科技评论曾经介绍过谷歌式的暴力收集、有 Facebook 利用用户上传图像的标签,也有苹果的生成并微调。生成数据的方法当然是最理想的,毕竟许多任务中所有有关的图像加起来也没有多少,而且生成数据的同时也直接获得了真实标签。但生成数据的方法也有严重的问题,那就是生成数据集和真实数据集的数据分布之间会有差异,这些差异限制了生成数据方法的效果。

对生成数据集和真实数据集差异的探究目前也有不少成果,比如学习不同任务通用的图像特征、学习图像风格迁移等,这样可以让生成数据集中的图像看上去更像真实图像。不过这篇论文的作者们认为,图像风格的差异其实只是很小的因素,更重要的差异在于图像内容的差异,而且生成的图像应当对新的任务有帮助。以往的图像生成方法只能覆盖有限的场景、有限的物体、有限的变化,对真实世界物体的多变性和属性的分布刻画不足;而且作者们提出,以 KITTI 数据集为例,它的数据是在德国采集的,但也许别的研究人员使用这个数据集训练的系统是想要在日本使用的,场景内容一定会有所不同;甚至服务的任务目标也可以不同。这都是现有的数据生成方法没有解决,甚至没有考虑的方面。如果完全在虚拟环境中复制重现的话,资金和时间成本也都非常高昂。

TB1fsJnTQvoK1RjSZFwXXciCFXa.jpg

Meta-Sim 生成的数据集能够缩小真实和生成数据之间的分布,而且能为下游任务进行优化

所以在论文《Meta-Sim: Learning to Generate Synthetic Datasets》中,作者们旗帜鲜明地提出,他们的研究目标是自动生成大规模标注数据集,而且这个数据集是对下游任务有帮助的(数据集中的内容分布能够符合目标使用场景)。作者们提出的方法是 Meta-Sim,它会学习到关于新合成的场景的生成式模型,而且可以通过一个图形引擎同步获得训练用的图形和对应的真实标签值。作者们接着用神经网络对数据集生成器进行参数化,使得它能够学会修改从场景内容分布概率中获得的场景结构图的属性,以便减小图像引擎输出的图像和目标数据集分布之间的差异。如果要模仿的真实数据集带有一个小的有标注验证集的话,作者们的方法还可以额外针对一个元目标进行优化,也就是说可以针对当前数据集任务的下游任务进行优化。实验表明,与人工设计的场景内容分布概率相比,他们提出的方法可以极大提高内容生成质量,可以在下游任务上定性以及定量地得到验证。更多具体细节可以参见论文原文。

这篇论文的作者们来自英伟达、多伦多大学、Vector 人工智能学院以及MIT。

项目主页参见: https: //nv-tlabs.github.io/meta-sim/ 

论文地址:https://arxiv.org/abs/1904.11621 

雷锋网 AI 科技评论报道

目录
相关文章
|
7月前
|
数据可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
R语言生态学进化树推断物种分化历史:分类单元数与时间关系、支系图可视化
|
4月前
|
SQL 自然语言处理 算法
评估数据集CGoDial问题之计算伪OOD样本的软标签的问题如何解决
评估数据集CGoDial问题之计算伪OOD样本的软标签的问题如何解决
|
7月前
|
人工智能 自然语言处理 测试技术
论文介绍:LLMLingua-2——面向高效忠实任务无关性提示压缩的数据蒸馏方法
【5月更文挑战第2天】LLMLingua-2是一种针对大型语言模型(LLMs)的数据蒸馏方法,旨在实现高效且忠实的提示压缩。通过从LLMs中提取知识,该方法在压缩提示的同时保持关键信息,提高模型泛化能力和效率。采用Transformer编码器,LLMLingua-2将提示压缩转化为标记分类问题,确保压缩后的提示忠实度并减少延迟。实验表明,该方法在多个数据集上优于基线,并在压缩延迟上取得显著改进,但也存在泛化能力和扩展性限制。论文链接:https://arxiv.org/abs/2403.12968
137 5
|
7月前
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
|
7月前
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
|
算法 Go
差异分析|DESeq2完成配对样本的差异分析
差异分析|DESeq2完成配对样本的差异分析
425 0
差异分析|DESeq2完成配对样本的差异分析
|
JSON 算法 数据格式
【变化检测】多时相影像变化检测精度评价(附有完整代码)
【变化检测】多时相影像变化检测精度评价(附有完整代码)
|
数据挖掘
R-apply| 基因表达量批量二分类,Get!(修正版)
R-apply| 基因表达量批量二分类,Get!(修正版)
110 0
|
Linux Windows Perl
没有生物学重复的转录组数据怎么进行差异分析?
设置生物学重复这个环节也是你实验设计很重要的一part,设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前我有批数据就是这样,但是办法总比困难多不能放过任何实验数据,搜了搜其实还是有一些方法可以去解决的,在这里介绍下我搜到的几种方法。
997 0
|
人工智能 自然语言处理
Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学
Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学