【数据分析与可视化】SKlearn主要功能和模块概述（图文解释简单易懂）-阿里云开发者社区

【数据分析与可视化】SKlearn主要功能和模块概述（图文解释简单易懂）

2023-12-20 818

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【数据分析与可视化】SKlearn主要功能和模块概述（图文解释简单易懂）

一、SKlearn简介

Scikit-learn是一组简单有效的工具集，依赖于Python的NumPy，SciPy和matplotlib库。它提供了估计机器学习统计模型的功能，包括回归、分类和聚集模型，以及数据处理、数据降维和模型选择等功能，如表11-1所示

表11-1 Scikit-learn常用功能

在机器学习过程中，需要使用各种各样的数据集，因此Scikit-learn框架也提供一些常用的数据集

表11-2 Scikit-learn提供的常用数据集

二、SKlearn的主要功能

Scikit-learn的功能主要分为六大部分：分类回归聚类数据降维模型选择和数据预处理

1. 分类

分类是对给定对象指定所属类别。分类属于监督学习，常用于垃圾邮件检测、图像识别等场景中。常用的分类算法有支持向量机（SVM，Support Verctor Machine）、K-最邻近算法（KNN，K-NearestNeighbor）、逻辑回归（LR，Logistic Regression）、随机森林（RF，Random Forest）、决策树（Decision Tree）等

2. 回归

回归分析是一项预测性的建模技术。它的目的是通过建立模型研究因变量和自变量之间的显著关系，即多个自变量对因变量的影响强度，预测数值型的目标值。常用的回归方法主要有支持向量回归（SVR，Support VectorRegression），脊回归（Ridge Regression），Lasso回归（Lasso Regression），弹性网络（Elastic Net），最小角回归（LARS）、贝叶斯回归（Bayesian Regrssion）等

3. 聚类

聚类是自动识别具有相似属性的给定对象，并将其分组为集合。聚类属于无监督学习，常用于顾客细分、实验结果分组等场景中。主要的聚类方法主要有K-均值聚类（K-means）、谱聚类（Spectral Clustring）、均值偏移（Mean Shift）、分层聚类和基于密度的聚类（Density-Based Spatial Clustering of Applications with Noise，DBSCAN）等方法

4. 数据降维

数据降维是用来减少随机数量个数的方法，常用于可视化处理、效率提升的应用场景中。主要的降维技术有主成分分析（PCA，Principal Component Analysis）、非负矩阵分解（NMF，Non-negative Matrix Factorizatio）等方法

5. 模型选择

模型选择是对给定参数和模型的比较、验证和选择的方法。模型选择的目的是通过参数调整来提升精度。已实现的模块包括格点搜索，交叉验证和各种针对预测误差评估的度量函数

6. 数据预处理

现实世界的数据极易受噪声、缺失值和不一致数据的侵扰，因为数据库太大且多半来自于多个一众数据源。低质量的数据会导致低质量的数据分析与挖掘结果。数据预处理是提高数据质量的有效方法，主要包括数据清理（清除数据噪声并纠正不一致）、数据集成（将多个数据源合并成一致数据存储）、数据规约（通过聚集、删除冗余特征或聚类等方法降低数据规模）和数据变换（数据规范化）

创作不易觉得有帮助请点赞关注收藏~~~

【数据分析与可视化】SKlearn主要功能和模块概述（图文解释简单易懂）

一、SKlearn简介

二、SKlearn的主要功能

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【数据分析与可视化】SKlearn主要功能和模块概述（图文解释 简单易懂）

一、SKlearn简介

二、SKlearn的主要功能

热门文章

最新文章

相关课程

相关电子书

【数据分析与可视化】SKlearn主要功能和模块概述（图文解释简单易懂）