【阿旭机器学习实战】【30】二手车价格预估--KNN回归案例-阿里云开发者社区

【阿旭机器学习实战】【30】二手车价格预估--KNN回归案例

2024-06-13 88

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【阿旭机器学习实战】【30】二手车价格预估--KNN回归案例

1. 加载数据

import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

关注公众号：阿旭算法与机器学习，回复：“ML30”即可获取本文数据集、源码与项目文档，欢迎共同学习交流

#读取数据
df = pd.read_csv('data.csv')
df  # data frame

2.特征工程

2.1 数据编码

# 把颜色独热编码
df_colors = df['Color'].str.get_dummies().add_prefix('Color: ')
# 把类型独热编码
df_type = df['Type'].apply(str).str.get_dummies().add_prefix('Type: ')
# 添加独热编码数据列
df = pd.concat([df, df_colors, df_type], axis=1)
# 去除独热编码对应的原始列
df = df.drop(['Brand', 'Type', 'Color'], axis=1)
df

# 特征热力图
matrix = df.corr()
f, ax = plt.subplots(figsize=(8, 6))
sns.heatmap(matrix, square=True)
plt.title('Car Price Variables')
# 特征两两组合，观察相关性
sns.pairplot(
    df[['Construction Year', 'Days Until MOT', 'Odometer', 'Ask Price']],size=2)
plt.show()

热图中,黑色表示负相关,白色表示正相关。通过解读以上两张图,选择相关性较大的特征,对模型进行训练。

3.构建模型进行训练与评估

3.1 构建模型并训练

# -*- coding: utf-8 -*-
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
df = pd.read_csv('D:/data.csv')
df_colors = pd.get_dummies(df['Color'], prefix='Color:')
df_type = pd.get_dummies(df['Type'].apply(str), prefix='Type:')
df = pd.concat([df, df_colors, df_type], axis=1)
df.drop(['Brand', 'Type', 'Color'], axis=1, inplace=True)
# 准备样本数据，选取'Construction Year', 'Days Until MOT', 'Odometer'这样个特征进行模型训练
X = df[['Construction Year', 'Days Until MOT', 'Odometer']]
y = df['Ask Price'].values.reshape(-1, 1)
# 生成训练及测试数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=41)
# 特征缩放--标准化
X_normalizer = StandardScaler()  # N(0,1)
X_train = X_normalizer.fit_transform(X_train)  # 对训练特征数据进行拟合并归一
X_test = X_normalizer.transform(X_test)  # 在对训练特征数据拟合之后应用到测试数据上
y_normalizer = StandardScaler()
y_train = y_normalizer.fit_transform(y_train)
y_test = y_normalizer.transform(y_test)
# 训练模型,由于此处是回归问题,不用设置成奇数
knn = KNeighborsRegressor(n_neighbors=2)
knn.fit(X_train, y_train.ravel())  # ravel 转换为一维数组
# 预测价格
y_pred = knn.predict(X_test)
# 由于之前对标签数组做过归一化,所以现在需要反向归一,还原成真实值
y_pred_inv = y_normalizer.inverse_transform(y_pred)
y_test_inv = y_normalizer.inverse_transform(y_test)
# Build a plot
plt.scatter(y_pred_inv, y_test_inv)
plt.xlabel('Prediction')
plt.ylabel('Real value')
# Now add the perfect prediction line
diagonal = np.linspace(500, 1500, 100)  # linspace()指定的间隔内返回均匀间隔的数字
plt.plot(diagonal, diagonal, '-r')  # -:直线 r:红色
plt.xlabel('Predicted ask price')
plt.ylabel('Ask price')
plt.show()

3.2 模型评估

knn

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
          metric_params=None, n_jobs=None, n_neighbors=2, p=2,
          weights='uniform')

pred = knn.predict(X_test)

pred

array([ 1.36676513,  1.36676513, -0.68269804,  0.13462294])

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_pred_inv, y_test_inv)

175.5

from sklearn.metrics import mean_squared_error
mean_squared_error(y_pred_inv, y_test_inv)

56525.5

y_pred_inv

array([1199., 1199.,  700.,  899.])

y_test_inv

array([[1300.],
       [1650.],
       [ 650.],
       [ 799.]])

【阿旭机器学习实战】【30】二手车价格预估--KNN回归案例

1. 加载数据

2.特征工程

2.1 数据编码

3.构建模型进行训练与评估

3.1 构建模型并训练

3.2 模型评估

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【阿旭机器学习实战】【30】二手车价格预估--KNN回归案例

1. 加载数据

2.特征工程

2.1 数据编码

3.构建模型进行训练与评估

3.1 构建模型并训练

3.2 模型评估

热门文章

最新文章

相关课程

相关电子书

相关实验场景