Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

简介: Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

WebVision数据集简介



image.png

       WebVision数据集主要有Google和Flickr两个数据源。主要是利用ImageNet1000个类的文本信息 从网站上爬数据,所以它的数据类别与}mageNet完全一样,为1000类别,由240万幅图片构成训练 数据。比}mageNet的两倍还多,分别由5万张图片构成验证集和测试集(均带有人工标注)。


image.png


1、WebVision数据集挑战


(1)、数据分布不平衡


image.png


     WebVision数据集主要有两个挑战。 第一个挑战,数据分布非常不平衡。 如图横坐标代表1000个类别,纵坐标代表每个类别的图片数量。如图浅蓝色的平稳曲线是ImageNet的 数据分布,每一个类别大概有1200张图片。而深蓝色曲线为Web Vision数据分布,可以看出有的类别高达11000张,而最少的小于400张图片,这种极度不平衡的分布对训练模型影响非常大。


(2)、数据集含有大量错误或歧义的标签

image.png



         第二个挑战,数据集含有大量错误或歧义的标签。 数据集中含有大量与类别标签不相关或歧义的图片,也就是所谓的噪声,这也是最主要的一个难点。比如Willet可以是一种鸟,但也可以是人名,也可以是建筑物的名字。



WebVision数据集下载


后期更新……





WebVision数据集使用方法


后期更新……


 


相关文章
|
安全 Linux 网络安全
【超详细】Linux系统修改SSH端口教程
在linux中,默认的SSH端口号为22,由于这是咱们都知道的端口号,一旦有入侵者进行端口扫描的时候扫描出22端口,就立马知道这是进行SSH登录的端口号,因而咱们需要修改默认的端口号。
12451 1
【超详细】Linux系统修改SSH端口教程
|
存储 SQL NoSQL
HarmonyOS学习路之开发篇—数据管理(分布式数据服务)
分布式数据服务(Distributed Data Service,DDS) 为应用程序提供不同设备间数据库数据分布式的能力。通过调用分布式数据接口,应用程序将数据保存到分布式数据库中。通过结合帐号、应用和数据库三元组,分布式数据服务对属于不同应用的数据进行隔离,保证不同应用之间的数据不能通过分布式数据服务互相访问。在通过可信认证的设备间,分布式数据服务支持应用数据相互同步,为用户提供在多种终端设备上最终一致的数据访问体验。
|
Java 测试技术 Spring
Spring Boot入门(11)实现文件下载功能
  在这篇博客中,我们将展示如何在Spring Boot中实现文件的下载功能。   还是遵循笔者写博客的一贯风格,简单又不失详细,实用又能让你学会。
2360 0
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的宠物小程序的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的宠物小程序的详细设计和实现(源码+lw+部署文档+讲解等)
197 1
|
存储 Cloud Native Go
云原生之使用docker部署Dochub文库系统
云原生之使用docker部署Dochub文库系统
1008 0
云原生之使用docker部署Dochub文库系统
|
缓存 NoSQL 关系型数据库
【MongoDB】MongoDB更新操作时是否立刻fsync到磁盘?
【4月更文挑战第2天】【MongoDB】MongoDB更新操作时是否立刻fsync到磁盘?
|
Ubuntu TensorFlow 算法框架/工具
ResNet实战:tensorflow2.X版本,ResNet50图像分类任务(小数据集)
本例提取了植物幼苗数据集中的部分数据做数据集,数据集共有12种类别,今天我和大家一起实现tensorflow2.X版本图像分类任务,分类的模型使用ResNet50。 通过这篇文章你可以学到: 1、如何加载图片数据,并处理数据。 2、如果将标签转为onehot编码 3、如何使用数据增强。 4、如何使用mixup。 5、如何切分数据集。 6、如何加载预训练模型。
1528 0
ResNet实战:tensorflow2.X版本,ResNet50图像分类任务(小数据集)
|
PyTorch 算法框架/工具
pytorch报错 RuntimeError: The size of tensor a (25) must match the size of tensor b (50) at non-singleton dimension 1 怎么解决?
这个错误提示表明,在进行某个操作时,张量a和b在第1个非单例维(即除了1以外的维度)上的大小不一致。例如,如果a是一个形状为(5, 5)的张量,而b是一个形状为(5, 10)的张量,则在第二个维度上的大小不匹配。
5946 0
|
物联网 语音技术 Swift
魔搭社区LLM模型部署实践, 以ChatGLM3为例(二)
魔搭社区LLM模型部署实践, 以ChatGLM3为例(二)
574 1