SOTA排行榜大变天!MIT研究十个CV测试集,平均错误率超3.4%

简介: 如果测试集不靠谱,那测出来的模型性能会靠谱吗?MIT研究了10个流行的CV的数据集,平均测试集的错误率超过3.4%,最多的竟然错误超10%。「2021新智元首期AI家论坛——“创新之都 AI赋智”在中关村软件园召开。新征程,新跨越,新智元邀您在新浪直播一起见证。赶快戳下方链接直达会场:新浪视频直播https://zhibo.sina.cn/news/118265?vt=4;图文云直播链接https://v.alltuu.com/r/2iaey2/」

「clean code」是机器学习的基础,在公开的数据集取得更好的效果也是发表论文的基础。 众所周知的是,公开数据集并不都是完美的,或多或少都存在标签错误的问题。之前的工作主要关注「训练数据集」中的错误,忽视了「测试数据集」的错误。 MIT在arxiv上传了一篇论文,研究了10个流行的数据集,借助Amazon的众包平台Machine Turk来检验错误率。 通过算法识别并人工验证,发现确实普遍存在标签错误,10个数据集的平均错误率为3.4%

70.jpg

MNIST也会出错? 即使是久经沙场,被无数论文作为基准测试过的MNIST数据集,在测试集中也包含15个(人工验证过的)标签错误。 不过大部分错误都属于有争议的结果,手写体写出来和看起来确实存在较大差距,例如0和6。


71.jpg

79.jpg

CIFAR-100迷惑性的标签

通过自然语言来定义标签,一个问题就是语言的「歧义性」。 下面三张标签中,图一过于抽象,并没有看出来是大象或是什么其他物种。
第二幅图被标注为「碗」,而被纠正为「茶杯」。cup与bowl之间的区别在于用途、大小。而根据图中比例来说,并无法分辨是碗还是杯子。
图三小编觉得更像是桌子,一个带花纹的桌子,可能纠正错了。


72.jpg

QuickDraw数据集有10%都是错的?

QuickDraw共包含了五千万幅画,其中抽样测试集错误率约为10%,也就是说五百万个样例都是错误的。 例如下图中,眼睛被标注为了老虎,灯泡被标注为鳄鱼皮。 第三幅图笔画过于简单,想象空间比较大,数据集给出的标签是落地灯,众包人员认为是回旋镖,但还有许多其他的答案,例如大雁或者其他的具有翅膀的动物。 


73.jpg

还有其他离谱的标注,天使被标注成三角形,鸟标注为火炉,苹果标注为衬衫,差的有点大吧?只能说标注人员脑洞开的真的很大!

74.jpg

ImageNet也有5.83%不可信赖

ImageNet的错误分类有许多是动物类的,需要标注人员具有专业知识,能够准确区分各个动物。 花鸡、松鸦、夜莺之间的区分,对于小编来说太难了。


75.jpg

跑车和赛车之间的区别还是比较大的,图一难道不是「玩具车」?

76.jpg

纠正标签有什么作用?

图(a)显示,移除更多的错误标签,能够线性地提高ResNet-18的准确率。图(b)和图(c)说明,当纠正更多的错误标签时,准确率也会上升。

77.jpg

当数据集中错误标签被纠正后,不同模型之间的排名也会发生较大变化。

78.jpg

人工标注是一个既客观又主观的事情,人在做图像识别任务的时候,也无法达到100%的准确率,错误无可避免。 训练集的错误标签同样会影响到模型在测试集上的表现,错误的标记可能会导致科研人员得出模型在现实世界中性能更佳的错误结论,从而破坏了机器学习系统的基准测试结果。 如何建立一个可依赖的公开数据库,或依赖半监督算法来有效清洗数据,也许是下一步研究方向。


相关文章
|
2天前
|
算法 数据挖掘 测试技术
犬类癌症检测(CANDiD)研究:使用独立测试集对1000多只犬进行基于高通量测序的多癌种早期检测"液体活检"血液测试的临床验证
这项研究首次在大规模独立测试集上验证了基于NGS的液体活检在犬类多癌种检测中的应用。该方法具有很高的特异性,可以作为一种新的无创癌症筛查和辅助诊断工具。通过早期发现癌症,有望改善犬类癌症的诊断和管理模式。
26 12
|
4月前
分享一份 .NET Core 简单的自带日志系统配置,平时做一些测试或个人代码研究,用它就可以了
分享一份 .NET Core 简单的自带日志系统配置,平时做一些测试或个人代码研究,用它就可以了
|
7月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
120 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
|
Java 测试技术 Spring
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试
|
机器学习/深度学习 传感器 资源调度
机载 ARAIM 算法测试技术研究附matlab代码
机载 ARAIM 算法测试技术研究附matlab代码
|
传感器 自动驾驶 测试技术
Study | 激光雷达性能如何统一量化?标准化测试最新研究发布
Study | 激光雷达性能如何统一量化?标准化测试最新研究发布
156 0
|
机器学习/深度学习 算法 PyTorch
【菜菜的CV进阶之路-Pytorch基础-model.eval】同一个模型测试:shuffle=False和shuffle=True 结果差异很大
【菜菜的CV进阶之路-Pytorch基础-model.eval】同一个模型测试:shuffle=False和shuffle=True 结果差异很大
281 0
【菜菜的CV进阶之路-Pytorch基础-model.eval】同一个模型测试:shuffle=False和shuffle=True 结果差异很大
|
机器学习/深度学习 人工智能 算法
企业在研究和产品开发中测试人工智能的可能性和局限性
人工智能在研发过程中正变得无价,但它无法解决所有挑战。
150 0
企业在研究和产品开发中测试人工智能的可能性和局限性
美国研究测试人员尝试用无人机送肾,结果......
无人机能携带紧急物资,无人机还能送肾?
374 0