机器学习算法竞赛实战--3,数据探索

简介: 数据探索可以帮助回答以上这3点,并能够保证竞赛的最佳结果,它是一种总结,可视化和熟悉数据集中重要特征的方法。数据探索有利于我们发现数据的一些特征,数据之间的关联性有助于后续的特征构建

数据挖掘是竞赛的核心模块之一,贯彻竞赛始终也是很多竞赛胜利的关键那么数据探索又是什么呢?可以解决哪些问题?首先应该明确3点,即如何确保自己准备好竞赛使用的算法模型如何为数据集选择最合适的算法如何定义可用于算法模型的特征变量


数据探索可以帮助回答以上这3点,并能够保证竞赛的最佳结果,它是一种总结,可视化和熟悉数据集中重要特征的方法。数据探索有利于我们发现数据的一些特征,数据之间的关联性有助于后续的特征构建


数据初探可以看做赛前数据探索主要包含分析思路,分析方法和目的通过系统化的探索,我们可以加深对数据的理解


在实际竞赛中,最好使用多种探索之路和方法来探索每个变量并比较结果在完全理解数据集后就可以进入数据预处理阶段和特征提取阶段的以便根据所期望的业务结果转化数据集此步骤的目的是确信数据集已准备好应用于机器学习算法


不单是针对每个变量,更是分析变量之间的联系,以及变量和标签的相关性并进行假设检验帮助我们提取有用特征


相关性分析只能比较数值特征,所以对于字母或字符串特征需要先进行编码并将其转化为数值,然后再看特征之间到底有什么关联,在实际竞赛中相关性分析可以很好的过滤掉与标签没有直接关系的特征并且这种方式在很多竞赛中均有很好的效果


数据探索的目的是帮助我们了解数据,并且构建有效特征


单变量分析太过单一不足以挖掘变量之间的内在联系获取更加细腻度的信息,所以多变量分析就变成了必须


分析特征变量与特征变量之间的关系有助于构建更好的特征,同时降低构件冗余特征的概率


学习曲线是机器学习中被广泛使用的效果评价工具能够反映训练集和验证集在训练迭代中分数的变化情况,帮助我们快速了解模型的学习效果



我们可以通过学习曲线来观察模型是否过拟合,通过判断拟合程度来确定如何改进模型


f79a7cbe97244846bab10677b9e9d14d.png


4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix)_进击的橘子猫的博客-CSDN博客_混淆矩阵

https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

画混淆矩阵sklearn_爱学习的大白菜的博客-CSDN博客_画混淆矩阵

https://blog.csdn.net/csdnliwenqi/article/details/120759519


混淆矩阵Confusion Matrix - 知乎 (zhihu.com)

https://zhuanlan.zhihu.com/p/111234566


【知识】六种基本图表的特点和适用场合 - 腾讯云开发者社区-腾讯云 (tencent.com)

https://cloud.tencent.com/developer/article/1044115


统计图表的分类和各种图表的优势? - 知乎 (zhihu.com)

https://www.zhihu.com/question/278758088


17种数据可视化图表,有哪些适用场景和局限 - 知乎 (zhihu.com)

https://zhuanlan.zhihu.com/p/54849856

目录
相关文章
|
5天前
|
存储 NoSQL 算法
实战算法篇:设计短域名系统,将长URL转化成短的URL.
小米介绍了一种实用的短域名系统设计,用于将冗长的URL转化为简短链接。短链接不仅节省空间,便于分享,还能支持数据分析。系统通过唯一编号结合62进制转换生成短标识,并利用如Redis这样的数据库存储长链接与短标识的映射关系。最后,通过302重定向实现用户访问时的长链接恢复。这一方案适用于多种场景,有效提升用户体验与数据追踪能力。
22 9
|
2天前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
7 2
|
7天前
|
机器学习/深度学习 人工智能 算法
掌握机器学习:从基础到实战的全路径导览
在人工智能的浪潮中,机器学习如同一艘航船,引领我们探索数据的海洋。本文是一篇深入浅出的技术分享,旨在为初学者和进阶者提供一条清晰的学习路线图。我们将一起启航,从理论的灯塔到实践的港湾,逐步揭开机器学习的神秘面纱,让每一位旅者都能在这场智能革命中找到自己的位置。
|
6天前
|
机器学习/深度学习 人工智能 关系型数据库
【机器学习】Qwen2大模型原理、训练及推理部署实战
【机器学习】Qwen2大模型原理、训练及推理部署实战
17 0
【机器学习】Qwen2大模型原理、训练及推理部署实战
|
9天前
|
机器学习/深度学习 数据采集 人工智能
理解并应用机器学习算法:从技术基础到实践应用
【8月更文挑战第10天】机器学习算法的应用已经深入到我们生活的方方面面,理解和掌握机器学习算法对于数据科学家、工程师乃至普通从业者来说都至关重要。通过本文的介绍,希望大家能够对机器学习有一个基本的认识,并学会如何将其应用于实际问题中。当然,机器学习是一个不断发展和演变的领域,只有不断学习和实践,才能跟上时代的步伐。
|
6天前
|
机器学习/深度学习 数据采集 物联网
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
21 0
|
6天前
|
机器学习/深度学习 编解码 API
【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战
【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战
18 0
|
6天前
|
机器学习/深度学习 人机交互 API
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
【机器学习】Whisper:开源语音转文本(speech-to-text)大模型实战
25 0
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
【机器学习】GLM4-9B-Chat大模型/GLM-4V-9B多模态大模型概述、原理及推理实战
25 0
|
6天前
|
机器学习/深度学习 存储 人工智能
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
【机器学习】Qwen1.5-14B-Chat大模型训练与推理实战
15 0