【Python数据科学手册】专题：特征工程-阿里云开发者社区

【Python数据科学手册】专题：特征工程

2019-08-04 995

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节将介绍特征工程的一些常见示例：表示分类数据的特征、表示文本的特征和表示图像的特征。另外，还会介绍提高模型复杂度的衍生特征和处理缺失数据的填充方法。这个过程通常被称为向量化，因为它把任意格式的数据转换成具有良好特性的向量形式。

本节将介绍特征工程的一些常见示例：表示分类数据的特征、表示文本的特征和表示图像的特征。另外，还会介绍提高模型复杂度的衍生特征和处理缺失数据的填充方法。这个过程通常被称为向量化，因为它把任意格式的数据转换成具有良好特性的向量形式。

1、分类数据

一种常见的非数值数据类型是分类数据。例如，浏览房屋数据的时候，除了看到“房价”（price）和“面积”（rooms）之类的数值特征，还会有“地点”（neighborhood）信息，数据可能像这样：

data = [
{'price': 850000, 'rooms': 4, 'neighborhood': 'Queen Anne'},
{'price': 700000, 'rooms': 3, 'neighborhood': 'Fremont'},
{'price': 650000, 'rooms': 3, 'neighborhood': 'Wallingford'},
{'price': 600000, 'rooms': 2, 'neighborhood': 'Fremont'}
]
        
          
        
        
        
          
          AI 代码解读

你可能会把分类特征用映射关系编码成整数：

{'Queen Anne': 1, 'Fremont': 2, 'Wallingford': 3};
        
          
        
        
        
          
          AI 代码解读

在Scikit-Learn 中这么做并不是一个好办法：这个程序包的所有模块都有一个基本假设，那就是数值特征可以反映代数量（algebraic quantities）。因此，这样映射编码可能会让人觉得存在

甚至还有

这显然是没有意义的。

面对这种情况，常用的解决方法是独热编码。

它可以有效增加额外的列，让0 和1 出现在对应的列分别表示每个分类值有或无。当你的数据是像上面那样的字典列表时，用Scikit-Learn 的DictVectorizer 类就可以实现：

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False, dtype=int)
vec.fit_transform(data)
        
          
        
        
        
          
          AI 代码解读

neighborhood 字段转换成三列来表示三个地点标签，每一行中用1 所在的列对应一个地点。当这些分类特征编码之后，你就可以和之前一样拟合Scikit-Learn 模型了：

如果要看每一列的含义，可以用下面的代码查看特征名称

vec.get_feature_names()
        
          
        
        
        
          
          AI 代码解读

如果你的分类特征有许多枚举值，那么数据集的维度就会急剧增加。然而，由于被编码的数据中有许多0，因此用稀疏矩阵表示会非常高效：

vec = DictVectorizer(sparse=True, dtype=int)
vec.fit_transform(data)
        
          
        
        
        
          
          AI 代码解读

在拟合和评估模型时，Scikit-Learn 的许多（并非所有）评估器都支持稀疏矩阵输入。sklearn.preprocessing.OneHotEncoder 和sklearn.feature_extraction.FeatureHasher 是Scikit-Learn 另外两个为分类特征编码的工具。

2、文本特征

另一种常见的特征工程需求是将文本转换成一组数值。例如，绝大多数社交媒体数据的自动化采集，都是依靠将文本编码成数字的技术手段。数据采集最简单的编码方法之一就是单词统计。

sample = ['problem of evil',
          'evil queen',
          'horizon problem']
        
          
        
        
        
          
          AI 代码解读

面对单词统计的数据向量化问题时，可以创建一个列来表示单词“problem”、单词“evil”和单词“horizon”等。虽然手动做也可以，但是用Scikit-Learn 的CountVectorizer 更是可以轻松实现：

from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer()
X = vec.fit_transform(sample)
X
        
          
        
        
        
          
          AI 代码解读

结果是一个稀疏矩阵，里面记录了每个短语中每个单词的出现次数。用带列标签的DataFrame 来表示这个稀疏矩阵

import pandas as pd
pd.DataFrame(X.toarray(), columns=vec.get_feature_names())
        
          
        
        
        
          
          AI 代码解读

不过这种统计方法也有一些问题：原始的单词统计会让一些常用词聚集太高的权重，在分类算法中这样并不合理。解决这个问题的方法就是通过TF–IDF（term frequency–inversedocument frequency，词频逆文档频率），通过单词在文档中出现的频率来衡量其权重

from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(sample)
pd.DataFrame(X.toarray(), columns=vec.get_feature_names())
        
          
        
        
        
          
          AI 代码解读

3、图像特征

机器学习还有一种常见需求，那就是对图像进行编码。我们在处理手写数字图像时使用的方法，也是最简单的图像编码方法：用像素表示图像。

但是在其他类型的任务中，这类方法可能不太合适。虽然完整地介绍图像特征的提取技术超出了本章的范围，但是你可以在Scikit-Image 项目（http://scikit-image.org）中找到许多标准方法的高品质实现。关于同时使用Scikit-Learn 和Scikit-Image 的示例，请参见应用人脸识别管道。

4、衍生特征

还有一种有用的特征是输入特征经过数学变换衍生出来的新特征。

将一个线性回归转换成多项式回归时，并不是通过改变模型来实现，而是通过改变输入数据！这种处理方式有时被称为基函数回归（basis function regression）。

例如，下面的数据显然不能用一条直线描述

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

x = np.array([1, 2, 3, 4, 5])
y = np.array([4, 2, 1, 3, 7])
plt.scatter(x, y);
        
          
        
        
        
          
          AI 代码解读

但是我们仍然用LinearRegression 拟合出一条直线，并获得直线的最优解：

from sklearn.linear_model import LinearRegression
X = x[:, np.newaxis]
model = LinearRegression().fit(X, y)
yfit = model.predict(X)
plt.scatter(x, y)
plt.plot(x, yfit);
        
          
        
        
        
          
          AI 代码解读

很显然，我们需要用一个更复杂的模型来描述x 与y 的关系。可以对数据进行变换，并增加额外的特征来提升模型的复杂度。例如，可以在数据中增加多项式特征：

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=3, include_bias=False)
X2 = poly.fit_transform(X)
print(X2)
        
          
        
        
        
          
          AI 代码解读

在衍生特征矩阵中，第1 列表示 x;

第2列表示 x²;

第3 列表示 x³;

通过对这个扩展的输入矩阵计算线性回归，就可以获得更接近原始数据的结果了。

model = LinearRegression().fit(X2, y)
yfit = model.predict(X2)
plt.scatter(x, y)
plt.plot(x, yfit);
        
          
        
        
        
          
          AI 代码解读

这种不通过改变模型，而是通过变换输入来改善模型效果的理念，正是许多更强大的机器学习方法的基础。

5、缺失值填充

特征工程中还有一种常见需求是处理缺失值。例如，有如下一个数据集：

from numpy import nan
X = np.array([[ nan, 0,   3  ],
              [ 3,   7,   9  ],
              [ 3,   5,   2  ],
              [ 4,   nan, 6  ],
              [ 8,   8,   1  ]])
y = np.array([14, 16, -1,  8, -5])

        
          
        
        
        
          
          AI 代码解读

当将一个普通的机器学习模型应用到这份数据时，首先需要用适当的值替换这些缺失数据。这个操作被称为缺失值填充，相应的策略很多，有的简单（例如用列均值替换缺失值），有的复杂（例如用矩阵填充或其他模型来处理缺失值）。

对于一般的填充方法，如均值、中位数、众数，Scikit-Learn 有Imputer 类可以实现：

from sklearn.preprocessing import Imputer
imp = Imputer(strategy='mean')
X2 = imp.fit_transform(X)
X2
        
          
        
        
        
          
          AI 代码解读

结果矩阵中的两处缺失值都被所在列剩余数据的均值替代了。这个被填充的数据就可以直接放到评估器里训练了，例如LinearRegression 评估器：

model = LinearRegression().fit(X2, y)
model.predict(X2)
        
          
        
        
        
          
          AI 代码解读

6、特征管道

如果经常需要手动应用前文介绍的任意一种方法，你很快就会感到厌倦，尤其是当你需要将多个步骤串起来使用时。例如，我们可能需要对一些数据做如下操作。

用均值填充缺失值。

将衍生特征转换为二次方。

拟合线性回归模型。

Scikit-Learn 提供了一个管道对象，如下所示：

from sklearn.pipeline import make_pipeline

model = make_pipeline(Imputer(strategy='mean'),
                      PolynomialFeatures(degree=2),
                      LinearRegression())
        
          
        
        
        
          
          AI 代码解读

这个管道看起来就像一个标准的Scikit-Learn 对象，可以对任何输入数据进行所有步骤的处理：

model.fit(X, y)  # X with missing values, from above
print(y)
print(model.predict(X))
        
          
        
        
        
          
          AI 代码解读

这样的话，所有的步骤都会自动完成。请注意，出于简化演示考虑，将模型应用到已经训练过的数据上，模型能够非常完美地预测结果。

【Python数据科学手册】专题：特征工程

1、分类数据

2、文本特征

3、图像特征

4、衍生特征

5、缺失值填充

6、特征管道

天池大数据科研平台

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Python数据科学手册】专题：特征工程

1、分类数据

2、文本特征

3、图像特征

4、衍生特征

5、缺失值填充

6、特征管道

天池大数据科研平台

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像