机器学习实战 —— 工业蒸汽量预测（一）-阿里云开发者社区

机器学习实战 —— 工业蒸汽量预测（一）

2024-05-13 155

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习实战 —— 工业蒸汽量预测（一）

文章描述

数据分析：查看变量间相关性以及找出关键变量。
机器学习实战 —— 工业蒸汽量预测（一）
数据特征工程对数据精进：异常值处理、归一化处理以及特征降维。
机器学习实战 —— 工业蒸汽量预测（二）
模型训练(涉及主流ML模型)：决策树、随机森林，lightgbm等。
机器学习实战 —— 工业蒸汽量预测（三）
模型验证：评估指标以及交叉验证等。
机器学习实战 —— 工业蒸汽量预测（四）
特征优化：用lgb对特征进行优化。
机器学习实战 —— 工业蒸汽量预测（五）
模型融合：进行基于stacking方式模型融合。
机器学习实战 —— 工业蒸汽量预测（六）

背景描述

背景介绍

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。

相关描述

经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。

结果评估

预测结果以mean square error作为评判标准。

数据说明

数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。选手利用训练数据训练出模型，预测测试数据的目标变量，排名结果依据预测结果的MSE（mean square error）。

数据来源

http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_test.txt

http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_train.txt

实战内容

1.数据分析

导入模块

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings("ignore")
 
%matplotlib inline

读取数据文件

使用Pandas库read_csv()函数进行数据读取，分割符为‘\t’

train_data_file = "./zhengqi_train.txt"
test_data_file =  "./zhengqi_test.txt"
train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')

1.1 查看数据信息

查看特征变量信息

train_data.info()

可以看到训练集数据共有2888个样本，数据中有V0-V37共计38个特征变量，变量类型都为数值类型，所有数据特征没有缺失值数据。

数据字段由于采用了脱敏处理，删除了特征数据的具体含义。其中target字段为标签变量。

test_data.info()

测试集数据共有1925个样本，数据中有V0-V37共计38个特征变量，变量类型都为数值类型

查看数据统计信息：

train_data.describe()

test_data.describe()

上面数据显示了数据的统计信息，例如样本数，数据的均值mean，标准差std，最小值，最大值等

查看数据字段信息：

train_data.head()

test_data.head()

1.2 可视化探索数据

箱式图

查看数据分布图

查看特征变量‘V0’的数据分布直方图，并绘制Q-Q图查看数据是否近似于正态分布

查看查看所有数据的直方图和Q-Q图，查看训练集的数据是否近似于正态分布

由上面的数据分布图信息可以看出，很多特征变量（如’V1’,‘V9’,‘V24’,'V28’等）的数据分布不是正态的，数据并不跟随对角线，后续可以使用数据变换对数据进行转换。

对比同一特征变量‘V0’下，训练集数据和测试集数据的分布情况，查看数据分布是否一致

查看所有特征变量下，训练集数据和测试集数据的分布情况，分析并寻找出数据分布不一致的特征变量。

查看特征’V5’, ‘V17’, ‘V28’, ‘V22’, ‘V11’, 'V9’数据的数据分布

由上图的数据分布可以看到特征’V5’,‘V9’,‘V11’,‘V17’,‘V22’,‘V28’ 训练集数据与测试集数据分布不一致，会导致模型泛化能力差，采用删除此类特征方法。

# 合并训练集和测试集数据，并可视化训练集和测试集数据特征分布图
drop_columns = ['V5','V9','V11','V17','V22','V28']

可视化线性回归关系

查看特征变量‘V0’与’target’变量的线性回归关系

1.2.1 查看变量间线性回归关系

1.2.2 查看特征变量的相关性

画出相关性热力图

找出相关程度

上图为所有特征变量和target变量两两之间的相关系数，由此可以看出各个特征变量V0-V37之间的相关性以及特征变量V0-V37与target的相关性。

1.2.3 查找重要变量

查找出特征变量和target变量相关系数大于0.5的特征变量

寻找K个最相关的特征信息

drop_columns.clear()
drop_columns = ['V5','V9','V11','V17','V22','V28']
threshold = 0.5
corr_matrix = data_train1.corr().abs()
drop_col=corr_matrix[corr_matrix["target"]<threshold].index

由于’V14’, ‘V21’, ‘V25’, ‘V26’, ‘V32’, ‘V33’, 'V34’特征的相关系数值小于0.5，故认为这些特征与最终的预测target值不相关，删除这些特征变量；

train_x =  train_data.drop(['target'], axis=1)
data_all = pd.concat([train_x,test_data]) 
data_all.drop(drop_columns,axis=1,inplace=True)
data_all.head()

cols_numeric=list(data_all.columns)
def scale_minmax(col):
    return (col-col.min())/(col.max()-col.min())
data_all[cols_numeric] = data_all[cols_numeric].apply(scale_minmax,axis=0)
data_all[cols_numeric].describe()

图1

图2

机器学习实战 —— 工业蒸汽量预测（一）

文章描述

背景描述

数据说明

数据来源

实战内容

1.数据分析

1.1 查看数据信息

1.2 可视化探索数据

1.2.1 查看变量间线性回归关系

1.2.2 查看特征变量的相关性

1.2.3 查找重要变量

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习实战 —— 工业蒸汽量预测（一）

文章描述

背景描述

数据说明

数据来源

实战内容

1.数据分析

1.1 查看数据信息

1.2 可视化探索数据

1.2.1 查看变量间线性回归关系

1.2.2 查看特征变量的相关性

1.2.3 查找重要变量

热门文章

最新文章

相关课程

相关电子书

相关实验场景