机器学习 —— 分类预测与集成学习(上)

简介: 机器学习 —— 分类预测与集成学习

   从指定的数据源读取数据,对数据进行必要的处理,选取合适的特征,构造分类模型,确定一个人的年收入是否超过50K。

   数据来源:1994年美国人口普查数据库。(原始数据下载地址:https://archive.ics.uci.edu/ml/datasets/Adult )。数据存放在data目录中,其中,adult.data存放训练数据,adult.test存放测试数据。

特征列

age:年龄,整数

workclass:工作性质,字符串,包含少数几种取值,例如:Private、State-gov等

education:教育程度,字符串,包含少数几种取值,例如:Bachelors、Masters等

education_num:受教育年限,整数

maritial_status:婚姻状况,字符串,包含少数几种取值,例如:Never-married、Divorced等

occupation:职业,字符串,包含少数几种取值,例如:Sales、Tech-Support等

relationship:亲戚关系,字符串,包含少数几种取值,例如:Husband、Wife等

race:种族,字符串,包含少数几种取值,例如:White、Black等

sex:性别,字符串,包含少数几种取值,例如:Female, Male

capital_gain:资本收益,浮点数

capital_loss:资本损失,浮点数

hours_per_week:每周工作小时数,浮点数

native_country:原籍,包含少数几种取值,例如:United-States, Mexico等

分类标签列:income

>50K

≤50K

(一)数据探查

       熟悉数据,查看数据结构和数据分布情况

1. 读取数据文件,查看行列信息

       文本(字符串)字段的Dtype属性为"object"

import numpy as np
import pandas as pd
train_data_path = 'adult.txt' # 训练数据
test_data_path = 'adult.test' # 测试数据
train_data = pd.read_csv(train_data_path, header=None) # 训练数据文件中不包含列名
test_data = pd.read_csv(test_data_path, header=None, skiprows=1) # 测试文件中的第一行数据无意义,应跳过(skiprows=1)
# 指定各个列的名称
col_labels = ['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status',
              'occupation', 'relationship', 'race', 'sex', 'capital_gain', 'capital_loss',
              'hours_per_week', 'native_country', 'wage_class']
train_data.columns = col_labels # 赋值给train_data列索引
test_data.columns = col_labels # 赋值给test_data列索引
print(train_data.info())#给出样本数据的相关信息概览 :行数,列数,列索引,列非空值个数,列类型,内存占用

图1:读取训练和测试数据文件,并查看行列信息

2. 查看数值类型列的数据描述信息

       对于数值类型的列,可以分别查看每列的基本统计信息,例如:数据个数、均值、标准差、极值、四分位数、中位数

print(train_data.describe())#给出样本数据的一些基本的统计量,包括均值,标准差,最大值,最小值,分位数等

图2:查看数值类型列的数据描述信息

3. 以可视化的方式查看数值类型的取值分布情况

       在上一步骤中,我们可以通过输出的结果看到capital_gain和capital_loss列的极小值、四分位数均为0,而极大值很大,这意味着其数据主要分布在0附近。可以通过分箱统计的方式查看数值分布情况

       直方统计图是很直观的查看数值分布的方法。下面的代码将所有数值分成20个区间,然后统计每个区间中的数据个数

import matplotlib.pyplot as plt
# 用在Jupyter notebook中具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候,或者生成一个figure画布的时候,可以直接在你的python console里面生成图像。效果如下:
%matplotlib inline 

numeric_columns = ['age','fnlwgt','education_num','capital_gain','capital_loss','hours_per_week']

#采用直方统计图按顺序可视化以上六个指标的取值分布情况
#六个图都画在同一个画布中
#每个图都要标注图名(哪个指标的可视化结果)

plt.figure(figsize=(16,12)) # 建立画布,figsize设置画布大小
# 使用for循环numeric_columns列表的长度将六个图都画在同一个画布中(i从0开始)
for i in range(len(numeric_columns)):
    plt.subplot(2,3,i+1) # 建系 plt.subplot(行数、列数、索引数(1开始))
    plt.hist(train_data[numeric_columns[i]],bins=20) # 直方图
    plt.title(numeric_columns[i]) # 设置图像标题
    plt.ylabel("Frequency") # 设置y轴的标签文本
    
plt.savefig("one.png") # 保存图片
plt.show()# 把图像显示出来。

图3:以可视化的方式查看数值类型的取值分布情况

图4:one.png

4. 查看文本类型列的取值

       对于文本类型的列,观察文本的取值有哪些

      unique函数用于提取出数据集合中的唯一值

       可以发现,某些列(例如:workclass, occupation,native_country等)包含’?'这样的字符,可视为缺失值。后续应处理此类缺失值

       还可以发现,训练数据的wage_class包括两个值:<=50K 和 >50K 而测试数据的是:<=50K. 和 >50K. 后续应使二者统一

print("训练数据:")
for column in train_data.columns:#循环输出train_data各个列的信息
    #判断文本(字符串)字段的Dtype属性是否为"object"
    if train_data[column].dtype == 'object':
        print(column + "取值为:")
#         unique()方法返回的是去重之后的不同值
        print(train_data[column].unique())#提取数据集合中的唯一值(去除重复的元素)
        print("==========================")
print("=========================================================")
print("测试数据:")
for column in test_data.columns:#循环输出test_data各个列的信息
    #判断文本(字符串)字段的Dtype属性是否为"object"
    if test_data[column].dtype == 'object':
        print(column + "取值为:")
        print(test_data[column].unique())#提取数据集合中的唯一值(去除重复的元素)
        print("==========================")

图5:查看文本类型列的取值

图6:查看训练数据文本类型列的取值

图7:查看测试数据文本类型列的取值

5. 查看文本类型的取值分布情况

text_columns = ['workclass','education','marital_status','occupation','relationship','race','sex','native_country','wage_class']
#采用柱状图,按顺序可视化以上九个指标的取值分布情况(温馨提示,此处需要求和哦)
#九个图都画在同一个画布中
plt.figure(figsize=(22,26)) # 建立画布,figsize设置画布大小
# 使用for循环text_columns列表的长度将九个图都画在同一个画布中(i从0开始)
for i in range(len(text_columns)):
    plt.subplot(5,2,i+1) # 建系 plt.subplot(行数、列数、索引数(1开始))
    value_counts = train_data[text_columns[i]].value_counts()# 先求和
    plt.bar(value_counts.index, value_counts.values)# 再画柱状图
    plt.xticks(rotation=50) # 设置x轴的文本倾斜50度
    plt.title(text_columns[i]) # 设置图像标题
plt.savefig("two.png") # 保存图片
plt.show()# 把图像显示出来。

图8:查看文本类型的取值分布情况

图9:two.png

6. 观察某行数据及单个字段

       下面的探查中,发现workclass字段的第一个字符为空格符

       进一步可以发现,所有的文本字段第一个字符均为空格。为便于数据处理,后续应设法将多余的空格去除

# 获取第1行数据
# iloc索引器用于按位置进行基于整数位置的索引或者选择。
print(train_data.iloc[0])
print("==========================")
# 获取第1行第2列
workclass = train_data.iloc[0, 1]
print(workclass)      # 可观察到输出中的第一个字符是空格
print(len(workclass))    # 该长度包括了空格

图10:观察某行数据及单个字段

7. 分析education取值与wage_class的对应数量关系

print("教育类型取值:")
print(train_data.education.unique())#提取数据集合中的唯一值(去除重复的元素)
# Pandas中的crosstab(交叉表)函数
result = pd.crosstab(index=train_data['wage_class'], columns=train_data['education'], rownames=['wage_class'])#使用交叉表函数,分析education取值与wage_class的对应数量关系
print(result)#输出education取值与wage_class的对应数量关系

图11:分析education取值与wage_class的对应数量关系

(二)数据清洗

       针对数据探查中发现的一些问题,对数据进行某些修改和调整。

1. 去除所有文本字段首尾的多余空格

       train_data.dtypes属性记录了数据集中所有列的类型信息,包括列下标索引(index)及对应的类型名称

       train_data.dtypes[index]返回指定下标索引的列的类型。此处仅匹配类型为文本字符串(object)的列

       train_data[column_index].str.strip()用于将指定列数据转换成字符串,然后调用strip函数去除首尾空格

# 去除训练数据集字段中多余的空格
# train_data.dtypes属性记录了数据集中所有列的类型信息,包括列下标索引(index)及对应的类型名称
for column_index in train_data.dtypes.index:
    #train_data.dtypes[column_index]返回指定下标索引的列的类型。此处仅匹配类型为文本字符串(object)的列
    if train_data.dtypes[column_index] == 'object':
        # train_data[column_index].str.strip()用于将指定列数据转换成字符串,然后调用strip函数去除首尾空格
        train_data[column_index] = train_data[column_index].str.strip()

# 去除测试数据集字段中多余的空格
# test_data.dtypes属性记录了数据集中所有列的类型信息,包括列下标索引(index)及对应的类型名称
for column_index in test_data.dtypes.index:
    #test_data.dtypes[column_index]返回指定下标索引的列的类型。此处仅匹配类型为文本字符串(object)的列
    if test_data.dtypes[column_index] == 'object':
        # test_data[column_index].str.strip()用于将指定列数据转换成字符串,然后调用strip函数去除首尾空格
        test_data[column_index] = test_data[column_index].str.strip()
        
# 查看结果
workclass = train_data.iloc[0, 1]# 获取train_data第1行第2列
print(workclass)
print(len(workclass))#workclass的长度

图12:所有文本字段首尾的多余空格

2. 统一分类标签

       和之前一样,训练数据和测试数据的wage_class字段的值应统一

       此处将测试数据集中的标签列更改成与训练数据集的一致,即:去掉原始标签值最后的"."号

# str.strip('.')去掉原始标签值最后的"."号
test_data['wage_class'] = test_data['wage_class'].str.strip('.')
# 查看结果
print(test_data['wage_class'].unique())#提取数据集合中的唯一值(去除重复的元素)

图13:统一分类标签

3. 处理’?'字段

       对于训练数据集,用’?'标记的字段,视为无效值,本例中直接移除含有无效值的样本行

       对于测试数据集,带’?'的数据,用出现次数最多的值(文本字段)填充

print("原始数据:")
print(train_data['workclass'].unique())#提取数据集合中的唯一值(去除重复的元素)
# replace('?', np.nan)将“?”转为无效值np.nan
# dropna()函数的作用是去除读入的数据中(DataFrame)含有NaN的行
train_data = train_data.replace('?', np.nan).dropna()#将“?”转为无效值,然后删除
print("更改后的数据:")
print(train_data['workclass'].unique())#提取数据集合中的唯一值(去除重复的元素)

图14:处理’?'字段(将“?”转为无效值,然后删除)

print("测试数据修正前:") #0-10行,并且是workclass,occupation,native_country的数据
print(test_data.loc[:10, ['workclass', 'occupation', 'native_country']])

for column in test_data.columns:
    if test_data[column].dtype == 'object':
#         使用value_counts()方法显示Pandas系列中的最频繁的值
        column_most_common_value = test_data[column].value_counts().index[0]#获取出现次数最多的值
#         replace('?', column_most_common_value)将“?”转为出现次数最多的值(column_most_common_value)
        test_data[column] = test_data[column].replace('?', column_most_common_value)#带'?'的数据,用出现次数最多的值(文本字段)填充

print("测试数据修正后:")#0-10行,并且是workclass,occupation,native_country的数据
print(test_data.loc[:10, ['workclass', 'occupation', 'native_country']])

图15:处理’?'字段(将“?”转为出现次数最多的值)

(三)数据预处理

       将各个特征转换成模型训练所需要的类型或格式。

1. 文本字段转换成数值字段的方法试验

       workclass的取值是文本类型,但模型训练需要的特征必须是数值,因此需要转换

       通过Categorical函数,可将文本转换成数值。相同的文本值被赋予相同的数值,并且从1,2,3…依次增长

# Categorical函数,将文本转换成数值。相同的文本值被赋予相同的数值,并且从1,2,3...依次增长
workclass_categorical = pd.Categorical(train_data['workclass'])
print(workclass_categorical.codes )

图16:文本字段转换成数值字段的方法试验

机器学习 —— 分类预测与集成学习(下)https://developer.aliyun.com/article/1507854?spm=a2c6h.13148508.setting.24.1b484f0eMnwKQL


目录
相关文章
|
2天前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习、分类问题和逻辑回归的基本概念、步骤、特点以及多分类问题的处理方法
机器学习是人工智能的一个核心分支,它专注于开发算法,使计算机系统能够自动地从数据中学习并改进其性能,而无需进行明确的编程。这些算法能够识别数据中的模式,并利用这些模式来做出预测或决策。机器学习的主要应用领域包括自然语言处理、计算机视觉、推荐系统、金融预测、医疗诊断等。
4 1
|
17天前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
24 9
|
13天前
|
机器学习/深度学习 算法
【机器学习】简单解释贝叶斯公式和朴素贝叶斯分类?(面试回答)
简要解释了贝叶斯公式及其在朴素贝叶斯分类算法中的应用,包括算法的基本原理和步骤。
21 1
|
13天前
|
人工智能
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
【8月更文挑战第6天】DeePEn是一种免训练异构大模型集成学习框架,旨在通过融合多个不同架构和参数的大模型输出概率分布,提升整体性能。它首先将各模型输出映射至统一概率空间,然后进行聚合,并最终反转回单一模型空间以生成输出。实验证明,在知识问答和推理任务上,DeePEn相比单一大模型如LLaMA和Mistral有显著提升,但其效果受模型质量和数量影响,并且计算成本较高。[论文: https://arxiv.org/abs/2404.12715]
26 1
|
17天前
|
机器学习/深度学习
【机器学习】模型融合Ensemble和集成学习Stacking的实现
文章介绍了使用mlxtend和lightgbm库中的分类器,如EnsembleVoteClassifier和StackingClassifier,以及sklearn库中的SVC、KNeighborsClassifier等进行模型集成的方法。
23 1
|
27天前
|
机器学习/深度学习 算法 前端开发
集成学习的力量:Sklearn中的随机森林与梯度提升详解
【7月更文第23天】集成学习,作为机器学习中一种强大而灵活的技术,通过结合多个基础模型的预测来提高整体预测性能。在`scikit-learn`(简称sklearn)这一Python机器学习库中,随机森林(Random Forest)和梯度提升(Gradient Boosting)是两种非常流行的集成学习方法。本文将深入解析这两种方法的工作原理,并通过代码示例展示它们在sklearn中的应用。
40 10
|
16天前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
在讯飞英文学术论文分类挑战赛中使用LightGBM模型进行文本分类的方案,包括数据预处理、特征提取、模型训练及多折交叉验证等步骤,并提供了相关的代码实现。
15 0
|
13天前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
35 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
13天前
|
机器学习/深度学习 数据采集 数据可视化
基于python 机器学习算法的二手房房价可视化和预测系统
文章介绍了一个基于Python机器学习算法的二手房房价可视化和预测系统,涵盖了爬虫数据采集、数据处理分析、机器学习预测以及Flask Web部署等模块。
基于python 机器学习算法的二手房房价可视化和预测系统
|
2天前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
7 2

热门文章

最新文章