Chapter2 Python数据分析工具

序言

Python本身的数据分析功能不强，需要安装一些第三方扩展库来增强它的能力。
如果安装了Anaconda发行版，那么它自带了以下库：Numpu、Scipy、Matplotlib、Pandas、Scikit-Learn。
本章主要简单介绍这些库，在后面的章节中，会通过各种案例对这些库的使用进行更深入的说明。废话不多说，开始我的表演了！

1. Numpy

Python并没有提供数组功能。虽然列表可以完成基本的数组功能，但它不是真正的数组，而在数据量较大时，使用列表的速度就会慢得让人难以接受。为此，Numpy提供了真正的数组功能，以及对数据进行快速处理的函数。Numpy还是很多高级的扩展库的依赖库，后面章节介绍的Scipy、Matplotlib、Pandas都依赖于它。值得强调的是，Numpy内置函数处理数据的速度是C语言级别的，因此在编写程序的时候，应当尽量使用它的内置函数，避免出现效率瓶颈的现象。
在Windows中，Numpy的安装跟普通的第三方库安装一样：

pip install numpy

也可自行下载源代码，然后用：

python setup.py install  # 安装

在Linux下上述方面也是可行的。此外，很多Linux发行版的软件源中都有Python常见的库，因此还可以通过Linux自带的软件管理器进行安装，如在Ubuntu下可以用：

sudo apt-get install python-numpy

安装。安装完成以后，就可以进行Numpy的基本操作了。

#  Numpy-----提供数组支持，以及对数据进行快速处理的函数
import numpy as np
a = np.array([2, 0, 2, 0])  # 创建数组
print(a)  # 输出数组
print(a[:3])  # 引用前三个数字(切片)
print(a.min())  # 输出a的最小值
a.sort()  # 将a的元素从小到大排序，此操作直接修改a, 因此这时候a为[0, 0, 2, 2]
print(a)
b = np.array([[1, 2, 3], [4, 5, 6]])  # 创建二维数组
print(b*b)  # 输出数组的平方阵，即[[1, 4, 9],[16, 25, 36]]

[2 0 2 0] # 输出数组
[2 0 2] # 引用前三个数字(切片)
0 # 输出a的最小值
[0 0 2 2] # 将a的元素从小到大排序
[[ 1 4 9]
[16 25 36]] # 输出数组的平方阵

2.Scipy

如果说Numpy让Python有了Matlab的味道，那么Scipy就让Python真正地成为了半个Matlab了。Numpy提供了多维数组的功能，但它只是一般的数组，并不是矩阵。例如，当两个数组相乘时，只是对应的元素相乘，而不是矩阵乘法。Scipy提供了真正的矩阵，以及大量基于矩阵运算的对象和函数。
Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学于工程中常用的计算，显然，这些功能都是挖掘于建模必备的。
同样，安装Scipy。安装好以后，进行简单的适用。

# 求解非线性方程组 2x1 - x2^2 = 1, x1^2 - x2 = 2
from scipy.optimize import fsolve  # 导入求解方程组的函数
def f(x):  # 定义要求解的方程组
    x1 = x[0]
    x2 = x[1]
    return [2*x1 - x2**2 - 1, x1**2 - x2 - 2]
result = fsolve(f, [1, 1])  # 输入初值[1, 1]并求解
print(result)  # 输出结果，为array([1.91963957, 1.68501606])
 # 数值积分
from scipy import integrate  # 导入积分函数
def g(x):  # 定义被积函数
    return (1-x**2) ** 0.5
pi_2, err = integrate.quad(g, -1, 1)  # 积分结果和误差
print(pi_2 * 2)  # 由微积分知识知道积分结果为圆周率的一半

[1.91963957 1.68501606]
3.1415926535897967

3.Matplotlib

不论是数据挖掘还是数学建模，都免不了数据可视化的问题。对于Python来说，Matplotlib时最著名的绘图库，它主要用于二维绘图，当然它也可以进行简单的三维绘图。它不但提供了一整套和Matlab相似但更为丰富的命令，让我们可以非常快捷地使用Python可视化数据，而且允许输出达到出版质量的多种图像格式。
Matplotlib的安装并没有什么特别之处，可以通过pip install matplotlib安装或者自行下载源代码安装，在Ubuntu下也可以用类似的。

sudo apt-get install python-matplotlib

安装。Matplotlib的上级依赖库相对较多，手动安装的时候，需要逐一把这些依赖库都安装好。安装完成以后就可以牛刀小试了，下面师益简单的作图的例子，它基本包含了Matplotlib作图的关键要素。

import numpy as np
import matplotlib.pyplot as plt  # 导入Matplotlib
x = np.linspace(0, 10, 1000)  # 作图的变量自变量，生成0到10以内的1000个数字。
y = np.sin(x) + 1  # 因变量y
z = np.cos(x**2) + 1  # 因变量z
plt.figure(figsize=(8, 4))   # 设置图像大小
plt.plot(x, y, label= '$\sin x+1$', color='red', linewidth=2)  # 作图，设置标签、线条颜色、线条大小
plt.plot(x, z, 'b--', label='$\cos x^2+1$')  # 作图，设置标签、线条类型
plt.xlabel('Time(s) ')  # x轴名称
plt.ylabel('Volt')  # y轴名称
plt.title('A Simple Example')  # 标题
plt.ylim(0, 2.2)  # 显示的y轴范围
plt.legend()  # 显示图例
plt.show()  # 显示作图结果

结果：

4. Pandas

终于谈到数据挖掘的主力工具-------Pandas了。Pandas时Python下最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具，使得在Python中处理数据非常快速和简单。Pandas构建在Numpy之上，它使得以Numpy为中心的应用很容易使用。Pandas的名称来自于面板数据(Panel Data)和Python数据分析(Data Analysis)，它最初被作为金融数据分析工具而开发出来的。
Pandas的数据结构时Series和DataFrame。顾名思义，Series就是序列，类似一维数组；DataFrame则是相当于一张二维的表格，类似于二维数组，它的每一列都是一个Series。为了定位Series中的元素，Pandas提供了Index对象，每个Series都会带有一个对应的Index，用来标记不同的元素，Index的内容不一定是数字，也可以是字母、中文等，它类似于SQL中的主键。

# Pandas支持类似于SQL的数据增、删、查、改，并且带有丰富的数据处理函数；
# 支持时间序列分析功能；支持灵活处理缺失数据等。
import pandas as pd
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])  # 创建一个序列s
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])  # 创建一个表
d2 = pd.DataFrame(s)  # 也可以用已有的序列来创建表格
print(d2)
print(d.head())  # 预览前五行数据
print(d.describe())

0
a 1
b 2
c 3

a b c
0 1 2 3
1 4 5 6

a b c
count 2.00000 2.00000 2.00000
mean 2.50000 3.50000 4.50000
std 2.12132 2.12132 2.12132
min 1.00000 2.00000 3.00000
25% 1.75000 2.75000 3.75000
50% 2.50000 3.50000 4.50000
75% 3.25000 4.25000 5.25000
max 4.00000 5.00000 6.00000

Pandas还可以读取文件，注意文件的存储路径不能带有中文，否则可能出错。

import pandas as pd
data = pd.read_excel('data.xlsx', encoding='utf-8')  # 读取Excel文件，否则可能出错
print(data.head())

名字\成绩数学英语物理化学
0 小明 80 80 99 97
1 小刚 70 55 100 98
2 小红 90 40 89 93
3 小美 60 77 90 96
4 小丽 75 66 93 97

5. StatsModels

Pandas着眼于数据的读取、处理和探索，而StatsModels则更加注重数据的统计建模分析，它使得Python有了R语言的味道。StatsModels支持于Pandas进行数据交互，因此，它于Pandas结合，成为了Python下强大的数据挖掘组合。
安装StatsModels非常简单，既可以通过pip安装，又可以通过源码安装。对于Windos用户来说，官网上甚至已经有编译好的exe文件以供下载。如果需要手动安装的话，需要自行解决好依赖问题，StatsModel依赖于Pandas，同时还依赖于pasty。
下面是一个用StatsModels进行ADF平稳性检验的例子

import numpy as np
from statsmodels.tsa.stattools import adfuller as ADF
print(ADF(np.random.rand(100)))  # 返回的结果由ADF值、p值等

(-5.456165403306984, 2.5788676252169965e-06, 7, 92,
{'1%': -3.503514579651927, '5%': -2.893507960466837,
'10%': -2.583823615311909}, 37.35645008144752)

6. Scikit-Learn

从该库的名字可以看出，这是一个机器学习库。不错，Scikit-Learn是Python下强大的机器学习工具包，它提供了完善的机器学习工具箱，包括数据预处理、分类、回归、聚类、预测和模型分析等。
Scikit-Learn依赖于Numpy、Scipy和Matplotlib，因此，只需要提前安装好前几个库，然后安装Scikit-Learn就基本上没有什么问题了，安装方法和前几个一样，要不就是pip install scikit-learn安装，要不就是下载源码自己安装。
创建一个机器学习的模型很简单

from sklearn.linear_model import LinearRegression # 导入线性回归模型
model = LinearRegression() # 建立线性回归模型
print(model)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
normalize=False)

Scikit-Learn本身提供了一些实例数据，比较常见的有安德森鸢尾花卉数据集、手写图像数据集等。
我们有一百五十个鸢尾花的一些尺寸的观测值：萼片长度、宽度，花瓣长度和宽度。还有它们的亚属：山鸢尾（Iris setosa）、变色鸢尾（Iris versicolor）和维吉尼亚鸢尾（Iris virginica）。

from sklearn import datasets
iris = datasets.load_iris()  # 加载数据集
print(iris.data.shape)  # 查看数据集大小
from sklearn import svm  # 导入SVM模型
clf = svm.LinearSVC()  # 建立线性SVM分类器
clf.fit(iris.data, iris.target)  # 用数据训练模型
clf.predict([[5.0, 3.6, 1.3, 0.25]])  # 训练好模型之后，输入新的数据进行预测
print(clf.coef_)  # 查看训练好模型的参数

[[ 0.18423084 0.45122536 -0.80794064 -0.45071191]
[ 0.05586348 -0.89905693 0.40951571 -0.96194199]
[-0.85050286 -0.98667695 1.38114012 1.86557065]]

7. Keras

虽然Scikit-Learn足够强大，但是它并没有包含一种强大的模型--------人工神经网络。人工神经网络是功能相当强大的、但是原理又相当简单的模型，在语言处理、图像识别等领域有着重要的作用。近年来逐渐火起来的“深度学习”算法，本质上也是一种神经网络，可见在Python中实现神经网络是非常有必要的。
事实上，Keras并非简单的神经网络库，而是一个基于Threano的强大的深度学习库，利用它不仅仅可以搭建普通的神经网络，还可以搭建各种深度网络模型，如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于Threano的，因此速度也相当快。

# 下面的几十行代码搭建一个MLP（多层感知机）
from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation
from keras.optimizers import SGD
model = Sequential()  # 模型初始化
model.add(Dense(20, 64))  # 添加输入层(20节点)、第一隐藏层(64节点)的连接
model.add(Activation('tanh'))  # 第一隐藏层用tanh作为激活函数
model.add(Dropout(0.5))  # 使用Dropout防止过拟合
model.add(Dense(64, 64))  # 添加第一隐藏层(64节点)、第二隐藏层(64节点)的连接
model.add(Activation('tanh'))  # 第二隐藏层用tanh作为激活函数
model.add(Dropout(0.5))  # 使用Dropout防止过拟合
model.add(Dense(64, 1))  # 添加第二隐藏层(64节点)、输出层(1节点)的连接
model.add(Activation('sigmod'))  # 输出层用sigmoid作为激活函数
sgd = SGD(lr=0.1, decay=1e-6, momentum=0.9, nesterov=True)  # 定义求解算法
model.fit(X_train, y_train, nb_epoch=20, batch_size=16)  # 训练模型
score = model.evaluate(X_test, y_test, batch_size=16)  # 测试模型

8. Gensim

在Gensim的官网中，它对自己的简介只有一句话：topic modelling for humans!
Genius是用来处理语言方面的内容，如文本相似度计算、LDA、Word2Vec等，这些领域的任务往往需要比较多的背景知识。

下面是一个Gensim使用Word2Vec的简单例子

import gensim, logging
# logging是用来输出训练日志
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
# 分好词的句子，每个句子以词列表的形式输入
sentences = [['first', 'sentence'], ['second', 'sentence']]
# 用以上句子训练词向量模型
model = gensim.models.Word2Vec(sentences, min_count=1)
print(model['sentence']) # 输出单词sentence的词向量

[ 3.3256777e-03 -3.3599234e-04 1.4851474e-04 4.8383819e-03
4.5049251e-03 4.7845901e-03 -1.3239369e-03 -1.8815239e-03
-3.6703956e-03 4.2816866e-03 3.6929923e-03 7.9753104e-04
-4.3348738e-04 -1.4672419e-03 1.4194930e-03 -6.3494581e-04
-8.3871878e-04 -4.6697357e-03 -2.7556117e-03 -8.4222778e-04
2.3534612e-03 2.8722258e-03 1.3527627e-03 -1.0353057e-03
1.1202707e-03 -4.3219463e-03 -4.7520906e-04 -3.7458976e-04
-7.1177131e-04 4.6983436e-03 2.7505222e-03 -3.3290898e-03
-3.4628378e-03 -3.4623581e-03 4.6309875e-03 -3.5190058e-03
3.9474354e-03 -2.0858629e-03 3.8249004e-03 -4.8357458e-03
2.3872401e-03 3.1114693e-03 -2.0685278e-04 1.2549465e-03
-1.4568379e-04 3.3461982e-03 4.3331002e-05 -3.0359076e-03
-3.8067563e-03 -3.8705941e-03 3.9506904e-03 -2.4668993e-03
-7.4716326e-04 -1.0118756e-04 -3.8489939e-03 -2.4964602e-03
-7.9871761e-04 3.8180151e-04 -1.8031960e-03 -3.0534246e-03
-3.1819264e-03 2.5668710e-03 1.2297786e-03 -4.1955332e-03
-4.3339548e-03 1.0493994e-03 2.8359778e-03 -3.9757169e-03
1.4591852e-03 -3.8472496e-03 -3.4582277e-03 1.3717393e-03
-2.4592755e-03 -4.7951629e-03 4.1540037e-03 1.1634901e-03
-1.8982046e-03 -1.4130659e-03 -2.2569399e-03 -3.0905546e-03
-5.2004633e-04 -3.1528575e-03 -3.1999631e-03 3.7971358e-03
-3.0510221e-04 -3.0863653e-03 -3.9570956e-03 -4.3477756e-03
3.9340914e-03 -3.8840056e-03 -6.6936354e-04 -1.8876110e-03
8.1132201e-04 -1.7235996e-03 -8.8019075e-04 -2.7104486e-03
4.6934914e-03 1.3472291e-04 -3.6058761e-03 2.7829179e-04]

总结

本章只介绍与数据分析与数据挖掘相关的一小部分，这些扩展库里面包含的函数在后面会进行实例分析，通过在Python平台上完成实际案例来掌握数据分析和数据挖掘的原理。

Python数据分析与挖掘实战学习笔记

Chapter2 Python数据分析工具

序言

1. Numpy

2.Scipy

3.Matplotlib

4. Pandas

5. StatsModels

6. Scikit-Learn

7. Keras

8. Gensim

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python数据分析与挖掘实战学习笔记

Chapter2 Python数据分析工具

序言

1. Numpy

2.Scipy

3.Matplotlib

4. Pandas

5. StatsModels

6. Scikit-Learn

7. Keras

8. Gensim

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像