【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)

简介: 【数据分析与可视化】SKlearn主要功能和模块概述(图文解释 简单易懂)

一、SKlearn简介

Scikit-learn是一组简单有效的工具集,依赖于Python的NumPy,SciPy和matplotlib库。它提供了估计机器学习统计模型的功能,包括回归、分类和聚集模型,以及数据处理、数据降维和模型选择等功能,如表11-1所示

表11-1 Scikit-learn常用功能

在机器学习过程中,需要使用各种各样的数据集,因此Scikit-learn框架也提供一些常用的数据集

表11-2 Scikit-learn提供的常用数据集

二、SKlearn的主要功能

Scikit-learn的功能主要分为六大部分:分类 回归 聚类 数据降维 模型选择和数据预处理

1. 分类

分类是对给定对象指定所属类别。分类属于监督学习,常用于垃圾邮件检测、图像识别等场景中。常用的分类算法有支持向量机(SVM,Support Verctor Machine)、K-最邻近算法(KNN,K-NearestNeighbor)、逻辑回归(LR,Logistic Regression)、随机森林(RF,Random Forest)、决策树(Decision Tree)等

2. 回归

回归分析是一项预测性的建模技术。它的目的是通过建立模型研究因变量和自变量之间的显著关系,即多个自变量对因变量的影响强度,预测数值型的目标值。常用的回归方法主要有支持向量回归(SVR,Support VectorRegression),脊回归(Ridge Regression),Lasso回归(Lasso Regression),弹性网络(Elastic Net),最小角回归(LARS)、贝叶斯回归(Bayesian Regrssion)等

3. 聚类

聚类是自动识别具有相似属性的给定对象,并将其分组为集合。聚类属于无监督学习,常用于顾客细分、实验结果分组等场景中。主要的聚类方法主要有K-均值聚类(K-means)、谱聚类(Spectral Clustring)、均值偏移(Mean Shift)、分层聚类和基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)等方法

4. 数据降维

数据降维是用来减少随机数量个数的方法,常用于可视化处理、效率提升的应用场景中。主要的降维技术有主成分分析(PCA,Principal Component Analysis)、非负矩阵分解(NMF,Non-negative Matrix Factorizatio)等方法

5. 模型选择

模型选择是对给定参数和模型的比较、验证和选择的方法。模型选择的目的是通过参数调整来提升精度。已实现的模块包括格点搜索,交叉验证和各种针对预测误差评估的度量函数

6. 数据预处理

现实世界的数据极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大且多半来自于多个一众数据源。低质量的数据会导致低质量的数据分析与挖掘结果。数据预处理是提高数据质量的有效方法,主要包括数据清理(清除数据噪声并纠正不一致)、数据集成(将多个数据源合并成一致数据存储)、数据规约(通过聚集、删除冗余特征或聚类等方法降低数据规模)和数据变换(数据规范化)

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
2月前
|
数据可视化 数据挖掘
R语言生存分析数据分析可视化案例(下)
R语言生存分析数据分析可视化案例
|
2月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
1天前
|
存储 数据可视化 Java
使用Java实现可视化数据分析平台
使用Java实现可视化数据分析平台
|
16天前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
51 11
|
20天前
|
JavaScript Java 测试技术
基于ssm+vue.js+uniapp小程序的短视频流量数据分析与可视化附带文章和源代码部署视频讲解等
基于ssm+vue.js+uniapp小程序的短视频流量数据分析与可视化附带文章和源代码部署视频讲解等
18 0
基于ssm+vue.js+uniapp小程序的短视频流量数据分析与可视化附带文章和源代码部署视频讲解等
|
6天前
|
数据采集 Web App开发 数据可视化
程序员必知:对厦门二手房的数据分析与可视化分析
程序员必知:对厦门二手房的数据分析与可视化分析
18 0
|
7天前
|
数据可视化 数据挖掘 Python
数据分析与可视化
数据分析与可视化
12 0
|
2月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析与可视化
使用Python进行数据分析与可视化
49 3
|
22天前
|
机器学习/深度学习 数据可视化 数据挖掘
python每日可视化分析:从过去到现代数据分析的演进
python每日可视化分析:从过去到现代数据分析的演进
|
2月前
|
数据可视化 数据挖掘 Java
springboot+vue体质测试数据分析及可视化设计(源码+文档)
体质测试数据分析及可视化设计实现了以下功能: 管理员:首页、个人中心、学生管理、教师管理、日常运动管理、运动分析管理、成绩信息管理、论坛管理、系统管理, 学生:首页、个人中心、日常运动管理、运动分析管理、成绩信息管理、论坛管理, 教师:首页、个人中心、日常运动管理、运动分析管理、成绩信息管理、系统管理, 前台首页:首页、论坛信息、公告信息、个人中心、后台管理、客服模块的修改维护操作。

热门文章

最新文章