生成的图像数据集效果不好?也许你需要考虑内容分布的差异

简介: 图像风格相似远远不是全部
TB1YfNpTIfpK1RjSZFOXXa6nFXa.jpg

雷锋网(公众号:雷锋网) AI 科技评论按:大家都知道深度学习模型的表现会随着训练数据增加而提高,所以为了不断提高模型表现,模型本身的设计和训练数据扩增方面的研究也都非常多。对于图像相关的任务,传统上有基于变换的数据扩增方法,雷锋网 AI 科技评论曾经介绍过谷歌式的暴力收集、有 Facebook 利用用户上传图像的标签,也有苹果的生成并微调。生成数据的方法当然是最理想的,毕竟许多任务中所有有关的图像加起来也没有多少,而且生成数据的同时也直接获得了真实标签。但生成数据的方法也有严重的问题,那就是生成数据集和真实数据集的数据分布之间会有差异,这些差异限制了生成数据方法的效果。

对生成数据集和真实数据集差异的探究目前也有不少成果,比如学习不同任务通用的图像特征、学习图像风格迁移等,这样可以让生成数据集中的图像看上去更像真实图像。不过这篇论文的作者们认为,图像风格的差异其实只是很小的因素,更重要的差异在于图像内容的差异,而且生成的图像应当对新的任务有帮助。以往的图像生成方法只能覆盖有限的场景、有限的物体、有限的变化,对真实世界物体的多变性和属性的分布刻画不足;而且作者们提出,以 KITTI 数据集为例,它的数据是在德国采集的,但也许别的研究人员使用这个数据集训练的系统是想要在日本使用的,场景内容一定会有所不同;甚至服务的任务目标也可以不同。这都是现有的数据生成方法没有解决,甚至没有考虑的方面。如果完全在虚拟环境中复制重现的话,资金和时间成本也都非常高昂。

TB1fsJnTQvoK1RjSZFwXXciCFXa.jpg

Meta-Sim 生成的数据集能够缩小真实和生成数据之间的分布,而且能为下游任务进行优化

所以在论文《Meta-Sim: Learning to Generate Synthetic Datasets》中,作者们旗帜鲜明地提出,他们的研究目标是自动生成大规模标注数据集,而且这个数据集是对下游任务有帮助的(数据集中的内容分布能够符合目标使用场景)。作者们提出的方法是 Meta-Sim,它会学习到关于新合成的场景的生成式模型,而且可以通过一个图形引擎同步获得训练用的图形和对应的真实标签值。作者们接着用神经网络对数据集生成器进行参数化,使得它能够学会修改从场景内容分布概率中获得的场景结构图的属性,以便减小图像引擎输出的图像和目标数据集分布之间的差异。如果要模仿的真实数据集带有一个小的有标注验证集的话,作者们的方法还可以额外针对一个元目标进行优化,也就是说可以针对当前数据集任务的下游任务进行优化。实验表明,与人工设计的场景内容分布概率相比,他们提出的方法可以极大提高内容生成质量,可以在下游任务上定性以及定量地得到验证。更多具体细节可以参见论文原文。

这篇论文的作者们来自英伟达、多伦多大学、Vector 人工智能学院以及MIT。

项目主页参见: https: //nv-tlabs.github.io/meta-sim/ 

论文地址:https://arxiv.org/abs/1904.11621 

雷锋网 AI 科技评论报道

目录
相关文章
|
2天前
|
机器学习/深度学习 数据可视化
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
|
8天前
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
31 0
|
9天前
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
18 0
|
8月前
|
JSON 算法 数据格式
优化cv2.findContours()函数提取的目标边界点,使语义分割进行远监督辅助标注
可以看到cv2.findContours()函数可以将目标的所有边界点都进行导出来,但是他的点存在一个问题,太过密集,如果我们想将语义分割的结果重新导出成labelme格式的json文件进行修正时,这就会存在点太密集没有办法进行修改,这里展示一个示例:没有对导出的结果进行修正,在labelme中的效果图。
84 0
|
9月前
|
传感器
如何利用波段组合解决同物异谱和异物同谱现象?
如何利用波段组合解决同物异谱和异物同谱现象?
104 0
|
10月前
|
JSON 算法 数据格式
【变化检测】多时相影像变化检测精度评价(附有完整代码)
【变化检测】多时相影像变化检测精度评价(附有完整代码)
|
10月前
|
算法 Go
差异分析|DESeq2完成配对样本的差异分析
差异分析|DESeq2完成配对样本的差异分析
298 0
差异分析|DESeq2完成配对样本的差异分析
|
10月前
|
数据挖掘
R-apply| 基因表达量批量二分类,Get!(修正版)
R-apply| 基因表达量批量二分类,Get!(修正版)
|
10月前
|
Linux Windows Perl
没有生物学重复的转录组数据怎么进行差异分析?
设置生物学重复这个环节也是你实验设计很重要的一part,设置的好对你下游分析也有利,通常我们做转录组测序,需要的样本量每组至少为3个生物学重复,这个处理起来就很合理,并且现在流行的差异分析软件DEseq2,limma,edgeR等等都是针对有重复的数据去做的,但有时候会不幸碰到样品测序失败不能用,导致每组就给你剩一个重复时候该怎么办,之前我有批数据就是这样,但是办法总比困难多不能放过任何实验数据,搜了搜其实还是有一些方法可以去解决的,在这里介绍下我搜到的几种方法。
551 0
|
11月前
|
编解码 数据可视化 UED
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节(2)
图像大面积缺失,也能逼真修复,新模型CM-GAN兼顾全局结构和纹理细节
227 0