CVPR 2024:字节提出新一代数据集COCONut,比COCO粒度分割更密集

简介: 【5月更文挑战第5天】在CVPR 2024会议上,字节跳动推出了COCONut数据集,作为COCO的升级版,用于更密集的图像分割任务。COCONut包含383K张图像和5.18M个分割标注,质量与规模均超越COCO,提供更准确、一致的标注,并有更多类别。其密集标注有助于理解图像细节,但大規模与高标注质量也可能带来训练资源和过拟合的挑战。[链接](https://arxiv.org/abs/2404.08639)

CVPR 2024会议上,字节跳动的研究人员提出了一种名为COCONut的新一代数据集,用于图像分割任务。COCONut是COCO Next Universal segmenTation的缩写,旨在通过提供更高质量和更密集的分割标注来推动计算机视觉领域的发展。

COCO数据集是计算机视觉领域广泛使用的基准数据集之一,它包含了大量图像和对应的标注,用于训练和评估图像分割模型。然而,随着计算机视觉技术的发展,COCO数据集的一些局限性开始显现出来。例如,COCO数据集的标注质量相对较低,存在一些错误和不一致性,这可能会影响模型的训练效果。此外,COCO数据集的规模相对较小,对于一些大规模的应用场景可能不够。

为了解决这些问题,字节跳动的研究人员提出了COCONut数据集。COCONut数据集包含了383K张图像和超过5.18M个分割标注,比COCO数据集的规模更大。此外,COCONut数据集的标注质量也得到了显著提升,研究人员通过使用现代神经网络和人工审核相结合的方式,对每个标注进行了仔细的检查和修正,以确保其准确性和一致性。

COCONut数据集的一个显著特点是其密集的分割标注。与COCO数据集相比,COCONut数据集的每个图像中的标注数量更多,这可以帮助模型更好地理解图像中的细节和结构。此外,COCONut数据集还包含了更多的类别,包括80个“thing”类别和53个“stuff”类别,这可以帮助模型更好地区分不同的对象和场景。

COCONut数据集的提出对于计算机视觉领域的发展具有重要意义。首先,COCONut数据集的高质量标注可以帮助研究人员更好地评估和比较不同的图像分割模型,推动该领域的发展。其次,COCONut数据集的密集标注和丰富类别可以帮助模型更好地理解图像中的细节和结构,提高其在实际应用中的表现。

然而,COCONut数据集也存在一些挑战和限制。首先,由于COCONut数据集的规模较大,对于一些研究人员来说,可能需要更多的计算资源和时间来进行训练和评估。其次,由于COCONut数据集的标注质量较高,对于一些模型来说,可能需要更多的数据来进行训练,以避免过拟合的问题。

论文链接:https://arxiv.org/abs/2404.08639

目录
相关文章
|
6月前
|
计算机视觉 网络架构
【YOLOv10改进-特征融合】YOLO-MS MSBlock : 分层特征融合策略
YOLOv10专栏介绍了YOLO-MS,一个优化多尺度目标检测的高效框架。YOLO-MS通过MS-Block和异构Kernel选择提升性能,平衡了计算复杂度与准确性。它在不依赖预训练的情况下,在COCO上超越同类模型,如YOLO-v7和RTMDet。MS-Block包含不同大小卷积的分支,用于增强特征表示。代码示例展示了MSBlock类的定义,用于处理不同尺度特征。该模块可应用于其他YOLO模型以提升性能。更多详情和配置参见相关链接。
|
8月前
|
机器学习/深度学习 数据处理 计算机视觉
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
126 0
|
8月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
97 4
|
8月前
|
计算机视觉
论文介绍:Panoptic-DeepLab——一种简单、强大且快速的自下而上全景分割基线
【5月更文挑战第22天】Panoptic-DeepLab是UIUC和Google Research合作开发的一种高效全景分割基线,采用双ASPP和双解码器设计,优化语义和实例分割。在Cityscapes、Mapillary Vistas和COCO数据集上表现优秀,同时保持接近实时的速度。其简洁设计仅需三个损失函数,具有高通用性和可扩展性。然而,仍面临尺度变化、实例分割等挑战,需要进一步优化。[链接](https://arxiv.org/abs/1911.10194)
136 0
|
8月前
|
存储 算法 自动驾驶
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
【论文速递】CVPR2022 - 用于语义分割的跨图像关系知识蒸馏
|
存储 机器学习/深度学习 编解码
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
209 0
|
机器学习/深度学习 算法 数据可视化
做语义分割不用任何像素标签,UCSD、英伟达在ViT中加入分组模块,入选CVPR2022
做语义分割不用任何像素标签,UCSD、英伟达在ViT中加入分组模块,入选CVPR2022
138 0
做语义分割不用任何像素标签,UCSD、英伟达在ViT中加入分组模块,入选CVPR2022
|
机器学习/深度学习 编解码 人工智能
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
稠密检索新突破:华为提出掩码自编码预训练模型,大幅刷新多项基准
277 0
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
275 0
|
机器学习/深度学习 人工智能 算法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
211 0