一、SKlearn简介
Scikit-learn是一组简单有效的工具集,依赖于Python的NumPy,SciPy和matplotlib库。它提供了估计机器学习统计模型的功能,包括回归、分类和聚集模型,以及数据处理、数据降维和模型选择等功能,如表11-1所示
表11-1 Scikit-learn常用功能
在机器学习过程中,需要使用各种各样的数据集,因此Scikit-learn框架也提供一些常用的数据集
表11-2 Scikit-learn提供的常用数据集
二、SKlearn的主要功能
Scikit-learn的功能主要分为六大部分:分类 回归 聚类 数据降维 模型选择和数据预处理
1. 分类
分类是对给定对象指定所属类别。分类属于监督学习,常用于垃圾邮件检测、图像识别等场景中。常用的分类算法有支持向量机(SVM,Support Verctor Machine)、K-最邻近算法(KNN,K-NearestNeighbor)、逻辑回归(LR,Logistic Regression)、随机森林(RF,Random Forest)、决策树(Decision Tree)等
2. 回归
回归分析是一项预测性的建模技术。它的目的是通过建立模型研究因变量和自变量之间的显著关系,即多个自变量对因变量的影响强度,预测数值型的目标值。常用的回归方法主要有支持向量回归(SVR,Support VectorRegression),脊回归(Ridge Regression),Lasso回归(Lasso Regression),弹性网络(Elastic Net),最小角回归(LARS)、贝叶斯回归(Bayesian Regrssion)等
3. 聚类
聚类是自动识别具有相似属性的给定对象,并将其分组为集合。聚类属于无监督学习,常用于顾客细分、实验结果分组等场景中。主要的聚类方法主要有K-均值聚类(K-means)、谱聚类(Spectral Clustring)、均值偏移(Mean Shift)、分层聚类和基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)等方法
4. 数据降维
数据降维是用来减少随机数量个数的方法,常用于可视化处理、效率提升的应用场景中。主要的降维技术有主成分分析(PCA,Principal Component Analysis)、非负矩阵分解(NMF,Non-negative Matrix Factorizatio)等方法
5. 模型选择
模型选择是对给定参数和模型的比较、验证和选择的方法。模型选择的目的是通过参数调整来提升精度。已实现的模块包括格点搜索,交叉验证和各种针对预测误差评估的度量函数
6. 数据预处理
现实世界的数据极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大且多半来自于多个一众数据源。低质量的数据会导致低质量的数据分析与挖掘结果。数据预处理是提高数据质量的有效方法,主要包括数据清理(清除数据噪声并纠正不一致)、数据集成(将多个数据源合并成一致数据存储)、数据规约(通过聚集、删除冗余特征或聚类等方法降低数据规模)和数据变换(数据规范化)
创作不易 觉得有帮助请点赞关注收藏~~~