【ML】机器学习数据集:sklearn中回归数据集介绍

简介: 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。

在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。

1. Boston房价预测数据集

该数据集将在scikit-learn 1.2版本移除,也就是说,scikit-learn1.2版本及以后,该数据集将不存在,且用且珍惜吧。

数据集加载代码:

# boston房价预测数据集
from sklearn.datasets import load_boston

housing_boston = load_boston()
X = housing_boston.data     # data
y = housing_boston.target   # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

其中X就是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“housing_boston”:

在这里插入图片描述

data: 506条数据,每条数据13维,即每条数据13个特征,这13个特征的名称存储在feature_names变量中,分别为['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
'TAX', 'PTRATIO', 'B', 'LSTAT']

CRIM: 各城镇的人均犯罪率
ZN: 超过25,000平方英尺的住宅用地比例
INDUS: 城镇非零售业态面积比例
CHAS: Charles River虚拟变量
NOX: 一氧化氮浓度(千万分之一)
RM: 每套住宅的平均房间数
AGE: 1940年以前建造的自住单位的比例
DIS: 到五个波士顿就业中心的加权距离
RAD: 径向公路可达性指数
TAX: 每1万美元的全值财产税税率
PTRATIO: 按城镇划分的学生教师比例
B: 城镇中黑人的比例
LSTAT: 人口地位下降率

2. California房价预测数据集

该数据集是Boston房价预测数据集替代数据集,随着scikit-learn版本的更新,以后我们将使用该数据集进行回归预测任务的练习。

数据集加载代码:

# california房价预测数据集
from sklearn.datasets import fetch_california_housing

housing_california = fetch_california_housing()
X = housing_california.data    # data
y = housing_california.target   # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

在这里插入图片描述

其中X就是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“housing_california”:

在这里插入图片描述

feature_names变量中,分别为['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']

MedInc: 街区组收入中位数
HouseAge: 街区组房屋年龄中位数
AveRooms: 每户平均房间数
AveBedrms: 每户平均卧室数量
Population: 人口数量
AveOccup: 家庭成员的平均人数
Latitude: 纬度
Longitude: 经度

3. 糖尿病预测数据集

该数据集是sklearn中自带的一个用于预测1年后糖尿病进展的定量测量(换句话说,一个连续变量的预测)。

数据集加载代码:

# 糖尿病数据集
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()

X = diabetes.data           # data
y = diabetes.target         # label

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

其中X就是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“diabetes”:

在这里插入图片描述

data: 442条数据,每条数据10维,即每条数据10个特征,这10个特征的名称存储在feature_names变量中,分别为['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

age: 年龄
sex: 性别
bmi: 身体质量指数
bp: 平均血压
s1: 血清总胆固醇
s2: 低密度脂蛋白
s3: 高密度脂蛋白
s4: 总胆固醇/高密度脂蛋白
s5: 血清甘油三酯水平的对数
s6: 血糖水平

参考
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

相关文章
|
2天前
|
机器学习/深度学习 数据采集 人工智能
论文介绍:机器学习中数据集规模增长的极限分析
【5月更文挑战第17天】论文《机器学习中数据集规模增长的极限分析》探讨了数据集大小对AI模型性能的影响,预测语言数据可能在2026年前耗尽,图像数据在2030-2060年可能面临相同问题。研究显示数据积累速度无法跟上数据集增长,可能在2030-2040年间导致训练瓶颈。然而,算法创新和新数据源的发展可能缓解这一问题。[链接](https://arxiv.org/pdf/2211.04325.pdf)
9 2
|
5天前
|
机器学习/深度学习 分布式计算 并行计算
【机器学习】怎样在非常大的数据集上执行K-means算法?
【5月更文挑战第13天】【机器学习】怎样在非常大的数据集上执行K-means算法?
|
5天前
|
机器学习/深度学习 数据采集 人工智能
机器学习之sklearn基础教程
【5月更文挑战第9天】Sklearn是Python热门机器学习库,提供丰富算法和预处理工具。本文深入讲解基础概念、核心理论、常见问题及解决策略。内容涵盖模型选择与训练、预处理、交叉验证、分类回归、模型评估、数据集划分、正则化、编码分类变量、特征选择与降维、集成学习、超参数调优、模型评估、保存加载及模型解释。学习Sklearn是迈入机器学习领域的关键。
26 3
|
5天前
|
机器学习/深度学习 数据采集 算法
机器学习之sklearn基础教程
机器学习之sklearn基础教程
|
5天前
|
机器学习/深度学习 数据采集 SQL
【Python机器学习专栏】使用Pandas处理机器学习数据集
【4月更文挑战第30天】本文介绍了如何使用Python的Pandas库处理机器学习数据集,涵盖数据读取、概览、清洗、转换、切分和保存等步骤。通过Pandas,可以从CSV等格式加载数据,进行缺失值、异常值处理,数据类型转换,如归一化、类别编码,并实现训练集与测试集的划分。此外,还展示了如何保存处理后的数据,强调了Pandas在数据预处理中的重要性。
|
5天前
|
算法框架/工具 TensorFlow 机器学习/深度学习
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(九)(2)
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(九)
157 0
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(九)(2)
|
5天前
|
机器学习/深度学习 算法框架/工具 TensorFlow
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(九)(1)
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(九)
47 0
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(九)(1)
|
5天前
|
机器学习/深度学习 人工智能 算法框架/工具
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)(4)
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)
36 0
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)(4)
|
5天前
|
异构计算 算法框架/工具 TensorFlow
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)(3)
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)
25 0
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)(3)
|
5天前
|
算法 机器学习/深度学习 算法框架/工具
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)(2)
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)
44 0
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(八)(2)

热门文章

最新文章