数据集相关知识

简介: 数据集相关知识

学习笔记,如有疑问欢迎交流。

一、什么是数据集?

由数据样本组成的集合。

样本之间是独立的(不依赖其他样本),单个样本拿出来仍然可以称为此目标的样本。

(最好)没有必然联系(除目标外),比如飞机和蓝天,如果数据集中的飞机都出现在蓝天里,结果可能将蓝天也分类为飞机,或其他背景中的飞机不会被识别。

详见 数据集-百度百科

二、 什么样的数据集是好的?

  1. 样本数量足够多
  2. 分布比较广(尽可能包含目标物体所有情况)

三、 怎样划分数据集?

我们获得数据后要对其进行划分,数据集一般包括:

  • 训练集(Training Set):模型用于训练和调整模型参数。
  • 验证集(Validation Set):用来验证模型精度和调整模型超参数,选择模型。
  • 测试集(Test Set):测试模型的泛化能力,最终对模型评估。

因为训练集和验证集是分开的,所以模型在验证集上面的精度在一定程度上可以反映模型的泛化能力。在划分验证集的时候,需要注意验证集的分布应该与测试集尽量保持一致,不然模型在验证集上的精度就失去了指导意义。

既然验证集这么重要,那么如何划分本地验证集呢。在一些比赛中,赛题方会给定验证集;如果赛题方没有给定验证集,那么参赛选手就需要从训练集中拆分一部分得到验证集。验证集的划分有如下几种方式:

802110d3b0abf48720655f45abd5ac7a.png

  • 留出法(Hold-Out) 直接将训练集划分成两部分,新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集,有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。
  • 交叉验证法(Cross Validation,CV)
    • K-折交叉验证。 将训练集划分成K份,将其中的K-1份作为训练集,剩余的1份作为验证集,循环K训练。这种划分方式是所有的训练集都是验证集,最终模型验证精度是K份平均得到。这种方式的优点是验证集精度比较可靠,训练K次可以得到K个有多样性差异的模型;CV验证的缺点是需要训练K次,不适合数据量很大的情况。
    • 留一法。 K-折交叉验证的特殊情况。K=N,N为数据集的样本数,即每一份有一个样本。
  • 自助采样法(BootStrap) 通过有放回的采样方式得到新的训练集和验证集,每次的训练集和验证集都是有区别的。这种划分方式一般适用于数据量较小的情况。

这些划分方法是从数据划分方式的角度来讲的,在现有的数据比赛中一般采用留出法和交叉验证法。如果数据量比较大,留出法还是比较合适的。

相关文章
|
编解码 监控 测试技术
如何优化OBS的推流设置以提高直播质量
【10月更文挑战第7天】如何优化OBS的推流设置以提高直播质量
|
安全 Java
【面试】Java集合中List,Set以及Map等集合体系详解
【面试】Java集合中List,Set以及Map等集合体系详解
315 0
|
8月前
|
人工智能 算法 安全
AI + 热成像技术在动火作业风险防控中的实现路径
融合AI视觉与热成像技术,构建动火作业安全管控体系。通过定制化易燃物识别、计算机视觉测距、红外温度监测与多源图像融合,实现风险目标精准识别、安全距离实时预警、高温火源智能捕捉,并结合小程序“即拍即查”与后端闭环管理平台,完成隐患从发现到整改的全流程追溯,提升工业现场安全管理智能化水平。
600 10
|
8月前
|
人工智能 自然语言处理 数据可视化
多模态AI重构科研范式:从"读文献"到"理解世界"
2025年,多模态AI正重塑科研:可同时理解文字、图像、公式等,实现文献智能解析、数据自动提取与跨学科融合,大幅提升研究效率。AI助力科研进入“人机协同”新时代,释放创造力,推动知识发现跃迁。
多模态AI重构科研范式:从"读文献"到"理解世界"
|
机器学习/深度学习 人工智能 自然语言处理
简述人工智能,及其三大学派:符号主义、连接主义、行为主义
简述人工智能,及其三大学派:符号主义、连接主义、行为主义
8134 0
简述人工智能,及其三大学派:符号主义、连接主义、行为主义
|
SQL JSON 数据库
DataFrame
【10月更文挑战第15天】
443 7
|
机器学习/深度学习 数据采集 存储
数据集
【7月更文挑战第10天】数据集
2460 1
|
11月前
|
iOS开发 MacOS
如何指定下载不同版本macOS app
本文介绍了多种下载和安装 macOS 的方法,包括使用终端命令下载指定版本的 macOS App 或 PKG 文件,以及通过脚本工具如 installinstallmacos.py 和 fetch-installer-pkg 实现自动化下载。同时还讲解了如何将 macOS 安装程序制作成可启动 U 盘,适用于系统重装或部署场景。
|
开发框架 供应链 JavaScript
一个简单、功能完整的开源WMS​仓库管理系统
一个简单、功能完整的开源WMS​仓库管理系统
1437 0
|
网络协议 Ubuntu 前端开发
好好的容器突然起不来,经定位是容器内无法访问外网了?测试又说没改网络配置,该如何定位网络问题
本文记录了一次解决前端应用集成到主应用后出现502错误的问题。通过与测试人员的沟通,最终发现是DNS配置问题导致的。文章详细描述了问题的背景、沟通过程、解决方案,并总结了相关知识点和经验教训,帮助读者学习如何分析和定位网络问题。
919 1