数据集相关知识

简介: 数据集相关知识

学习笔记,如有疑问欢迎交流。

一、什么是数据集?

由数据样本组成的集合。

样本之间是独立的(不依赖其他样本),单个样本拿出来仍然可以称为此目标的样本。

(最好)没有必然联系(除目标外),比如飞机和蓝天,如果数据集中的飞机都出现在蓝天里,结果可能将蓝天也分类为飞机,或其他背景中的飞机不会被识别。

详见 数据集-百度百科

二、 什么样的数据集是好的?

  1. 样本数量足够多
  2. 分布比较广(尽可能包含目标物体所有情况)

三、 怎样划分数据集?

我们获得数据后要对其进行划分,数据集一般包括:

  • 训练集(Training Set):模型用于训练和调整模型参数。
  • 验证集(Validation Set):用来验证模型精度和调整模型超参数,选择模型。
  • 测试集(Test Set):测试模型的泛化能力,最终对模型评估。

因为训练集和验证集是分开的,所以模型在验证集上面的精度在一定程度上可以反映模型的泛化能力。在划分验证集的时候,需要注意验证集的分布应该与测试集尽量保持一致,不然模型在验证集上的精度就失去了指导意义。

既然验证集这么重要,那么如何划分本地验证集呢。在一些比赛中,赛题方会给定验证集;如果赛题方没有给定验证集,那么参赛选手就需要从训练集中拆分一部分得到验证集。验证集的划分有如下几种方式:

802110d3b0abf48720655f45abd5ac7a.png

  • 留出法(Hold-Out) 直接将训练集划分成两部分,新的训练集和验证集。这种划分方式的优点是最为直接简单;缺点是只得到了一份验证集,有可能导致模型在验证集上过拟合。留出法应用场景是数据量比较大的情况。
  • 交叉验证法(Cross Validation,CV)
    • K-折交叉验证。 将训练集划分成K份,将其中的K-1份作为训练集,剩余的1份作为验证集,循环K训练。这种划分方式是所有的训练集都是验证集,最终模型验证精度是K份平均得到。这种方式的优点是验证集精度比较可靠,训练K次可以得到K个有多样性差异的模型;CV验证的缺点是需要训练K次,不适合数据量很大的情况。
    • 留一法。 K-折交叉验证的特殊情况。K=N,N为数据集的样本数,即每一份有一个样本。
  • 自助采样法(BootStrap) 通过有放回的采样方式得到新的训练集和验证集,每次的训练集和验证集都是有区别的。这种划分方式一般适用于数据量较小的情况。

这些划分方法是从数据划分方式的角度来讲的,在现有的数据比赛中一般采用留出法和交叉验证法。如果数据量比较大,留出法还是比较合适的。

相关文章
|
编解码 监控 测试技术
如何优化OBS的推流设置以提高直播质量
【10月更文挑战第7天】如何优化OBS的推流设置以提高直播质量
|
安全 Java
【面试】Java集合中List,Set以及Map等集合体系详解
【面试】Java集合中List,Set以及Map等集合体系详解
299 0
|
3月前
|
搜索推荐 算法 大数据
别再拍脑袋上线了:用大数据把 A/B 测试和在线实验平台这件事干“正经”
别再拍脑袋上线了:用大数据把 A/B 测试和在线实验平台这件事干“正经”
246 1
|
9月前
|
弹性计算 运维 安全
阿里云轻量应用服务器是什么?看完你就知道了
阿里云轻量应用服务器是面向网站建设、开发测试等轻量场景的云服务器,按套餐售卖,内置多种应用镜像,支持一键部署,操作简单,适合个人开发者和中小企业使用。
921 0
|
4月前
|
移动开发 前端开发 C++
HTML的标签
HTML标签需先掌握核心规则:成对出现或自闭合,属性加引号,推荐小写。按功能分类学习更高效——结构标签构建骨架,文本标签排版内容,媒体标签插入资源,列表与表格展示数据,表单实现交互,语义化标签提升可读性。建议新手从高频标签入手,边写边练,结合MDN查阅,注重语义理解而非死记硬背,规范书写避免常见错误。(239字)
2419 0
|
5月前
|
存储 人工智能 缓存
硬核解析:AI 原生知识库系统如何击穿企业知识管理技术瓶颈
AI原生开源知识库系统,以RAG+NLP双引擎重构知识管理全链路。通过语义解析、智能检索、自动文档生成等技术,实现非结构化数据的高效结构化与精准召回,支持多源内容导入、跨系统集成及企业级安全管控,兼具高性能、低门槛与强扩展性,助力企业打破信息孤岛,释放知识资产价值。
|
7月前
|
存储 弹性计算 监控
阿里云渠道商:云文件存储 NAS 的价格是如何计算的?
阿里云NAS提供灵活计费与分层存储,支持按量付费和预购资源包,结合生命周期管理可降低存储成本超60%。通过冷热数据分离、合理选型与容量优化,助力企业高效降本。新用户可享专业指导与优惠支持。
|
机器学习/深度学习 数据采集 存储
数据集
【7月更文挑战第10天】数据集
2389 1
|
10月前
|
iOS开发 MacOS
如何指定下载不同版本macOS app
本文介绍了多种下载和安装 macOS 的方法,包括使用终端命令下载指定版本的 macOS App 或 PKG 文件,以及通过脚本工具如 installinstallmacos.py 和 fetch-installer-pkg 实现自动化下载。同时还讲解了如何将 macOS 安装程序制作成可启动 U 盘,适用于系统重装或部署场景。
|
开发框架 供应链 JavaScript
一个简单、功能完整的开源WMS​仓库管理系统
一个简单、功能完整的开源WMS​仓库管理系统
1370 0