scikit-learn主要模块和基本使用方法

简介:

引言

对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。
在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。

加载数据(Data Loading)

我们假设输入时一个特征矩阵或者csv文件。
首先,数据应该被载入内存中。
scikit-learn的实现使用了NumPy中的arrays,所以,我们要使用NumPy来载入csv文件。
以下是从UCI机器学习数据仓库中下载的数据。

复制代码
 1 import numpy as np
 2 import urllib
 3 # url with dataset
 4 url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
 5 # download the file
 6 raw_data = urllib.urlopen(url)
 7 # load the CSV file as a numpy matrix
 8 dataset = np.loadtxt(raw_data, delimiter=",")
 9 # separate the data from the target attributes
10 X = dataset[:,0:7]
11 y = dataset[:,8]
复制代码

我们要使用该数据集作为例子,将特征矩阵作为X,目标变量作为y。

注意事项:

(1)可以用浏览器打开那个url,把数据文件保存在本地,然后直接用 np.loadtxt('data.txt', delemiter=",") 就可以加载数据了;

(2)X = dataset[:, 0:7]的意思是:把dataset中的所有行,所有0-7列的数据都保存在X中;

数据归一化(Data Normalization)

大多数机器学习算法中的梯度方法对于数据的缩放和尺度都是很敏感的,在开始跑算法之前,我们应该进行归一化或者标准化的过程,这使得特征数据缩放到0-1范围中。scikit-learn提供了归一化的方法,具体解释参考http://scikit-learn.org/stable/modules/preprocessing.html

复制代码
1 from sklearn import preprocessing
2 #scale the data attributes
3 scaled_X = preprocessing.scale(X)
4 
5 # normalize the data attributes
6 normalized_X = preprocessing.normalize(X)
7 
8 # standardize the data attributes
9 standardized_X = preprocessing.scale(X)
复制代码

特征选择(Feature Selection)

在解决一个实际问题的过程中,选择合适的特征或者构建特征的能力特别重要。这成为特征选择或者特征工程。
特征选择时一个很需要创造力的过程,更多的依赖于直觉和专业知识,并且有很多现成的算法来进行特征的选择。
下面的树算法(Tree algorithms)计算特征的信息量:

代码:

复制代码
1 from sklearn import metrics
2 from sklearn.ensemble import ExtraTreesClassifier
3 model = ExtraTreesClassifier()
4 model.fit(X, y)
5 # display the relative importance of each attribute
6 print(model.feature_importances_)
复制代码

输出每个特征的重要程度:

[ 0.13784722  0.15383598  0.25451389  0.17476852  0.02847222  0.12314815  0.12741402]

算法的使用

scikit-learn实现了机器学习的大部分基础算法,让我们快速了解一下。

逻辑回归(官方文档

大多数问题都可以归结为二元分类问题。这个算法的优点是可以给出数据所在类别的概率。

复制代码
 1 from sklearn import metrics
 2 from sklearn.linear_model import LogisticRegression
 3 model = LogisticRegression()
 4 model.fit(X, y)
 5 print('MODEL')
 6 print(model)
 7 # make predictions
 8 expected = y
 9 predicted = model.predict(X)
10 # summarize the fit of the model
11 print('RESULT')
12 print(metrics.classification_report(expected, predicted))
13 print('CONFUSION MATRIX')
14 print(metrics.confusion_matrix(expected, predicted))
复制代码

结果:

复制代码
 1 MODEL
 2 LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
 3           intercept_scaling=1, max_iter=100, multi_class='ovr',
 4           penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
 5           verbose=0)
 6 RESULT
 7              precision    recall  f1-score   support
 8 
 9         0.0       1.00      1.00      1.00         4
10         1.0       1.00      1.00      1.00         6
11 
12 avg / total       1.00      1.00      1.00        10
13 
14 CONFUSION MATRIX
15 [[4 0]
16  [0 6]]
复制代码

输出结果中的各个参数信息,可以参考官方文档。

朴素贝叶斯(官方文档

这也是著名的机器学习算法,该方法的任务是还原训练样本数据的分布密度,其在多类别分类中有很好的效果。

复制代码
 1 from sklearn import metrics
 2 from sklearn.naive_bayes import GaussianNB
 3 model = GaussianNB()
 4 model.fit(X, y)
 5 print('MODEL')
 6 print(model)
 7 # make predictions
 8 expected = y
 9 predicted = model.predict(X)
10 # summarize the fit of the model
11 print('RESULT')
12 print(metrics.classification_report(expected, predicted))
13 print('CONFUSION MATRIX')
14 print(metrics.confusion_matrix(expected, predicted))
复制代码

结果:

复制代码
MODEL
GaussianNB()
RESULT
             precision    recall  f1-score   support

        0.0       0.80      1.00      0.89         4
        1.0       1.00      0.83      0.91         6

avg / total       0.92      0.90      0.90        10

CONFUSION MATRIX
[[4 0]
 [1 5]]
复制代码

k近邻(官方文档

k近邻算法常常被用作是分类算法一部分,比如可以用它来评估特征,在特征选择上我们可以用到它。

复制代码
 1 from sklearn import metrics
 2 from sklearn.neighbors import KNeighborsClassifier
 3 # fit a k-nearest neighbor model to the data
 4 model = KNeighborsClassifier()
 5 model.fit(X, y)
 6 print(model)
 7 # make predictions
 8 expected = y
 9 predicted = model.predict(X)
10 # summarize the fit of the model
11 print(metrics.classification_report(expected, predicted))
12 print(metrics.confusion_matrix(expected, predicted))
复制代码

结果:

复制代码
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_neighbors=5, p=2, weights='uniform')
             precision    recall  f1-score   support

        0.0       0.75      0.75      0.75         4
        1.0       0.83      0.83      0.83         6

avg / total       0.80      0.80      0.80        10

[[3 1]
 [1 5]]
复制代码

决策树(官方文档

分类与回归树(Classification and Regression Trees ,CART)算法常用于特征含有类别信息的分类或者回归问题,这种方法非常适用于多分类情况。

复制代码
 1 from sklearn import metrics
 2 from sklearn.tree import DecisionTreeClassifier
 3 # fit a CART model to the data
 4 model = DecisionTreeClassifier()
 5 model.fit(X, y)
 6 print(model)
 7 # make predictions
 8 expected = y
 9 predicted = model.predict(X)
10 # summarize the fit of the model
11 print(metrics.classification_report(expected, predicted))
12 print(metrics.confusion_matrix(expected, predicted))
复制代码

结果

复制代码
DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            random_state=None, splitter='best')
             precision    recall  f1-score   support

        0.0       1.00      1.00      1.00         4
        1.0       1.00      1.00      1.00         6

avg / total       1.00      1.00      1.00        10

[[4 0]
 [0 6]]
复制代码

支持向量机(官方文档

SVM是非常流行的机器学习算法,主要用于分类问题,如同逻辑回归问题,它可以使用一对多的方法进行多类别的分类。

复制代码
 1 from sklearn import metrics
 2 from sklearn.svm import SVC
 3 # fit a SVM model to the data
 4 model = SVC()
 5 model.fit(X, y)
 6 print(model)
 7 # make predictions
 8 expected = y
 9 predicted = model.predict(X)
10 # summarize the fit of the model
11 print(metrics.classification_report(expected, predicted))
12 print(metrics.confusion_matrix(expected, predicted))
复制代码

结果

复制代码
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,
  kernel='rbf', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False)
             precision    recall  f1-score   support

        0.0       1.00      1.00      1.00         4
        1.0       1.00      1.00      1.00         6

avg / total       1.00      1.00      1.00        10

[[4 0]
 [0 6]]
复制代码

除了分类和回归算法外,scikit-learn提供了更加复杂的算法,比如聚类算法,还实现了算法组合的技术,如Bagging和Boosting算法。

如何优化算法参数

一项更加困难的任务是构建一个有效的方法用于选择正确的参数,我们需要用搜索的方法来确定参数。scikit-learn提供了实现这一目标的函数。
下面的例子是一个进行正则参数选择的程序:

GridSearchCV官方文档1(模块使用) 官方文档2 (原理详解)

复制代码
 1 import numpy as np
 2 from sklearn.linear_model import Ridge
 3 from sklearn.grid_search import GridSearchCV
 4 # prepare a range of alpha values to test
 5 alphas = np.array([1,0.1,0.01,0.001,0.0001,0])
 6 # create and fit a ridge regression model, testing each alpha
 7 model = Ridge()
 8 grid = GridSearchCV(estimator=model, param_grid=dict(alpha=alphas))
 9 grid.fit(X, y)
10 print(grid)
11 # summarize the results of the grid search
12 print(grid.best_score_)
13 print(grid.best_estimator_.alpha)
复制代码

结果:

复制代码
GridSearchCV(cv=None, error_score='raise',
       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, solver='auto', tol=0.001),
       fit_params={}, iid=True, loss_func=None, n_jobs=1,
       param_grid={'alpha': array([  1.00000e+00,   1.00000e-01,   1.00000e-02,   1.00000e-03,
         1.00000e-04,   0.00000e+00])},
       pre_dispatch='2*n_jobs', refit=True, score_func=None, scoring=None,
       verbose=0)
-5.59572064238
0.0
复制代码

有时随机从给定区间中选择参数是很有效的方法,然后根据这些参数来评估算法的效果进而选择最佳的那个。

RandomizedSearchCV官方文档(模块使用)官方文档2 (原理详解)

复制代码
 1 import numpy as np
 2 from scipy.stats import uniform as sp_rand
 3 from sklearn.linear_model import Ridge
 4 from sklearn.grid_search import RandomizedSearchCV
 5 # prepare a uniform distribution to sample for the alpha parameter
 6 param_grid = {'alpha': sp_rand()}
 7 # create and fit a ridge regression model, testing random alpha values
 8 model = Ridge()
 9 rsearch = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100)
10 rsearch.fit(X, y)
11 print(rsearch)
12 # summarize the results of the random parameter search
13 print(rsearch.best_score_)
14 print(rsearch.best_estimator_.alpha)
复制代码

小结

我们总体了解了使用scikit-learn库的大致流程,希望这些总结能让初学者沉下心来,一步一步尽快的学习如何去解决具体的机器学习问题。


本文转自ZH奶酪博客园博客,原文链接:http://www.cnblogs.com/CheeseZH/p/5250997.html,如需转载请自行联系原作者

相关文章
|
4月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
583 7
|
4月前
|
监控 安全 程序员
Python日志模块配置:从print到logging的优雅升级指南
从 `print` 到 `logging` 是 Python 开发的必经之路。`print` 调试简单却难维护,日志混乱、无法分级、缺乏上下文;而 `logging` 支持级别控制、多输出、结构化记录,助力项目可维护性升级。本文详解痛点、优势、迁移方案与最佳实践,助你构建专业日志系统,让程序“有记忆”。
403 0
|
4月前
|
JSON 算法 API
Python中的json模块:从基础到进阶的实用指南
本文深入解析Python内置json模块的使用,涵盖序列化与反序列化核心函数、参数配置、中文处理、自定义对象转换及异常处理,并介绍性能优化与第三方库扩展,助你高效实现JSON数据交互。(238字)
495 4
|
4月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
454 0
|
4月前
|
XML JSON 数据处理
超越JSON:Python结构化数据处理模块全解析
本文深入解析Python中12个核心数据处理模块,涵盖csv、pandas、pickle、shelve、struct、configparser、xml、numpy、array、sqlite3和msgpack,覆盖表格处理、序列化、配置管理、科学计算等六大场景,结合真实案例与决策树,助你高效应对各类数据挑战。(238字)
433 0
|
5月前
|
安全 大数据 程序员
Python operator模块的methodcaller:一行代码搞定对象方法调用的黑科技
`operator.methodcaller`是Python中处理对象方法调用的高效工具,替代冗长Lambda,提升代码可读性与性能。适用于数据过滤、排序、转换等场景,支持参数传递与链式调用,是函数式编程的隐藏利器。
196 4
|
5月前
|
存储 数据库 开发者
Python SQLite模块:轻量级数据库的实战指南
本文深入讲解Python内置sqlite3模块的实战应用,涵盖数据库连接、CRUD操作、事务管理、性能优化及高级特性,结合完整案例,助你快速掌握SQLite在小型项目中的高效使用,是Python开发者必备的轻量级数据库指南。
489 0
|
6月前
|
存储 安全 数据处理
Python 内置模块 collections 详解
`collections` 是 Python 内置模块,提供多种高效数据类型,如 `namedtuple`、`deque`、`Counter` 等,帮助开发者优化数据处理流程,提升代码可读性与性能,适用于复杂数据结构管理与高效操作场景。
441 0
|
9月前
|
机器学习/深度学习 人工智能 算法
Scikit-learn:Python机器学习的瑞士军刀
想要快速入门机器学习但被复杂算法吓退?本文详解Scikit-learn如何让您无需深厚数学背景也能构建强大AI模型。从数据预处理到模型评估,从垃圾邮件过滤到信用风险评估,通过实用案例和直观图表,带您掌握这把Python机器学习的'瑞士军刀'。无论您是AI新手还是经验丰富的数据科学家,都能从中获取将理论转化为实际应用的关键技巧。了解Scikit-learn与大语言模型的最新集成方式,抢先掌握机器学习的未来发展方向!
1168 12
Scikit-learn:Python机器学习的瑞士军刀
|
7月前
|
数据安全/隐私保护 Python
抖音私信脚本app,协议私信群发工具,抖音python私信模块
这个实现包含三个主要模块:抖音私信核心功能类、辅助工具类和主程序入口。核心功能包括登录

推荐镜像

更多