数据集相关知识

简介: 数据集相关知识

学习笔记,如有疑问欢迎交流。

一、什么是数据集?

由数据样本组成的集合。

样本之间是独立的(不依赖其他样本),单个样本拿出来仍然可以称为此目标的样本。

(最好)没有必然联系(除目标外),比如飞机和蓝天,如果数据集中的飞机都出现在蓝天里,结果可能将蓝天也分类为飞机,或其他背景中的飞机不会被识别。

详见 数据集-百度百科

二、 什么样的数据集是好的?

  1. 样本数量足够多
  2. 分布比较广(尽可能包含目标物体所有情况)

三、 怎样划分数据集?

我们获得数据后要对其进行划分,数据集一般包括:

  • 训练集(Training Set):模型用于训练和调整模型参数。
  • 验证集(Validation Set):用来验证模型精度和调整模型超参数,选择模型。
  • 测试集(Test Set):测试模型的泛化能力,最终对模型评估。

因为训练集和验证集是分开的,所以模型在验证集上面的精度在一定程度上可以反映模型的泛化能力。在划分验证集的时候,需要注意验证集的分布应该与测试集尽量保持一致,不然模型在验证集上的精度就失去了指导意义。

既然验证集这么重要,那么如何划分本地验证集呢。在一些比赛中,赛题方会给定验证集;如果赛题方没有给定验证集,那么参赛选手就需要从训练集中拆分一部分得到验证集。验证集的划分有如下几种方式:

802110d3b0abf48720655f45abd5ac7a.png

  • 留出法(Hold-Out) 直接将训练集划分成两部分,新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集,有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。
  • 交叉验证法(Cross Validation,CV)
    • K-折交叉验证。 将训练集划分成K份,将其中的K-1份作为训练集,剩余的1份作为验证集,循环K训练。这种划分方式是所有的训练集都是验证集,最终模型验证精度是K份平均得到。这种方式的优点是验证集精度比较可靠,训练K次可以得到K个有多样性差异的模型;CV验证的缺点是需要训练K次,不适合数据量很大的情况。
    • 留一法。 K-折交叉验证的特殊情况。K=N,N为数据集的样本数,即每一份有一个样本。
  • 自助采样法(BootStrap) 通过有放回的采样方式得到新的训练集和验证集,每次的训练集和验证集都是有区别的。这种划分方式一般适用于数据量较小的情况。

这些划分方法是从数据划分方式的角度来讲的,在现有的数据比赛中一般采用留出法和交叉验证法。如果数据量比较大,留出法还是比较合适的。

相关文章
|
2月前
|
弹性计算 运维 安全
阿里云轻量应用服务器是什么?看完你就知道了
阿里云轻量应用服务器是面向网站建设、开发测试等轻量场景的云服务器,按套餐售卖,内置多种应用镜像,支持一键部署,操作简单,适合个人开发者和中小企业使用。
394 0
|
2月前
|
存储 人工智能 算法
​​向量数据库终极指南:AI开发者的进阶手册​
本文深入解析向量数据库的原理与实战应用,涵盖其在AI系统中的核心作用、关键技术(如HNSW、PQ、LSH)、相似性搜索、元数据过滤及无服务器架构优势。适合开发者和AI从业者学习提升。
324 1
|
机器学习/深度学习 数据采集 存储
数据集
【7月更文挑战第10天】数据集
1510 1
|
7月前
|
弹性计算 Linux 数据安全/隐私保护
阿里云服务器搭建幻兽帕鲁【Palworld】游戏服详细教程,2025最新附价格表
阿里云提供2025年最新幻兽帕鲁游戏服务器申请与一键开服教程。支持4核16G(8人)和8核32G(20人)两种配置,系统自动部署游戏程序,本地安装STEAM即可开始游戏。价格低至70元/月起,选择地域、时长及操作系统后,2-3分钟完成创建。通过Steam客户端输入服务器IP与端口8211,轻松加入多人游戏,开启冒险之旅!更多详情见阿里云幻兽帕鲁专区。
|
9月前
|
监控 数据可视化 数据挖掘
直播电商复盘全解析:如何通过工具提升团队效率
直播电商作为新兴商业模式,正改变传统零售格局。其成功不仅依赖主播表现和产品吸引力,更需团队高效协作与分工优化。复盘是提升执行力的关键环节,通过总结经验、发现问题、优化流程,结合在线工具如板栗看板,可提升复盘效率。明确团队角色、建立沟通机制、制定优化方案,确保数据驱动决策,从而在竞争中保持领先。
|
存储 开发框架 缓存
基因组组装:NextDenovo2 使用大全
基因组组装:NextDenovo2 使用大全
|
数据挖掘 Python
Pandas实战(1):电商购物用户行为数据分析
Pandas实战(1):电商购物用户行为数据分析
519 1
|
算法 Python
群智能算法:灰狼优化算法(GWO)的详细解读
在优化问题中,寻找最优解是核心目标。灰狼优化算法(GWO)受到自然界灰狼狩猎行为和社会等级结构的启发,通过模拟Alpha(头狼)、Beta(助手狼)、Delta(支配狼)和Omega(普通狼)的角色,高效搜索最优解。本文详细解析GWO的原理与步骤,并提供Python代码实现,帮助读者理解并应用这一算法。
|
运维 数据可视化 搜索推荐
什么是零代码?零代码与低代码有什么联系与区别?
这篇文章阐述了零代码和低代码开发的概念、优势、区别,以及它们如何服务于不同用户群体,并通过APaaS平台促进快速开发和部署应用程序。
|
数据格式 Python
使用 schema 库,自定义较复杂的校验方法
使用 schema 库,自定义较复杂的校验方法
171 0