【ML】机器学习数据集:sklearn中分类数据集介绍

简介: 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍sklearn中几个常用的分类预测数据集。本教程使用的sklearn版本是1.0.2。

在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍sklearn中几个常用的分类预测数据集。本教程使用的sklearn版本是1.0.2。

1.乳腺癌分类数据集(二分类)

数据集加载代码:

from sklearn.datasets import load_breast_cancer

data = load_breast_cancer()
X = data.data
y = data.target

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述

data: 569条数据,每条数据30维,即每条数据30个特征,这30个特征的名称存储在feature_names变量中,分别为['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness', 'mean compactness', 'mean concavity', 'mean concave points', 'mean symmetry', 'mean fractal dimension', 'radius error', 'texture error', 'perimeter error', 'area error', 'smoothness error', 'compactness error', 'concavity error', 'concave points error', 'symmetry error', 'fractal dimension error', 'worst radius', 'worst texture', 'worst perimeter', 'worst area', 'worst smoothness', 'worst compactness', 'worst concavity', 'worst concave points', 'worst symmetry', 'worst fractal dimension']

2.鸢尾花分类数据集(三分类)

数据集加载代码:

from sklearn.datasets import load_iris

data = load_iris()
X = data.data
y = data.target

为了便于方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述
data: 150条数据,每条数据4维,即每条数据4个特征,这4个特征的名称存储在feature_names变量中,分别为['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

3.葡萄酒分类数据集(三分类)

数据集加载代码:

from sklearn.datasets import load_wine

data = load_wine()
X = data.data
y = data.target

为了方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述

y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述

data: 178条数据,每条数据13维,即每条数据13个特征,这13个特征的名称存储在feature_names变量中,分别为['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']

4.手写数字分类数据集(十分类)

数据集加载代码:

from sklearn.datasets import load_digits

data = load_digits()
X = data.data
y = data.target

为了方便查看加载的数据集,我们可以使用jupyter notebook或者spyder编辑器。我们以spyder编辑器为例:

运行加载数据集的代码,右侧会出现变量;

在这里插入图片描述

X是输入模型的数据:

在这里插入图片描述
y是数据对应的标签:

在这里插入图片描述

双击点开变量“data”:

在这里插入图片描述

data: 1797条数据,每条数据64维,即每条数据64个特征,这64个特征的名称存储在feature_names变量中,分别为['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7']

5.其他数据集

当然,除了上述介绍的分类数据集,sklearn.datasets还有其他的分类数据集,例如,新闻文本分类数据集(datasets.fetch_20newsgroups、datasets.fetch_20newsgroups_vectorized,二十分类),森林植被类型数据集(datasets.fetch_covtype,七分类),入侵检测数据集(datasets.fetch_kddcup99,二十三分类),人脸数据集分类(datasets.fetch_lfw_pair、datasets.fetch_lfw_people、datasets.fetch_lfw_people)等等。

参考资料

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
https://blog.csdn.net/weixin_39652646/article/details/109939004

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】
|
5天前
|
机器学习/深度学习 自然语言处理 算法
|
2天前
|
机器学习/深度学习 数据采集 人工智能
论文介绍:机器学习中数据集规模增长的极限分析
【5月更文挑战第17天】论文《机器学习中数据集规模增长的极限分析》探讨了数据集大小对AI模型性能的影响,预测语言数据可能在2026年前耗尽,图像数据在2030-2060年可能面临相同问题。研究显示数据积累速度无法跟上数据集增长,可能在2030-2040年间导致训练瓶颈。然而,算法创新和新数据源的发展可能缓解这一问题。[链接](https://arxiv.org/pdf/2211.04325.pdf)
9 2
|
5天前
|
机器学习/深度学习 分布式计算 并行计算
【机器学习】怎样在非常大的数据集上执行K-means算法?
【5月更文挑战第13天】【机器学习】怎样在非常大的数据集上执行K-means算法?
|
5天前
|
机器学习/深度学习
机器学习 —— 分类预测与集成学习(下)
机器学习 —— 分类预测与集成学习(下)
17 0
|
5天前
|
机器学习/深度学习 数据采集 数据可视化
机器学习 —— 分类预测与集成学习(上)
机器学习 —— 分类预测与集成学习
24 2
|
5天前
|
机器学习/深度学习 存储 算法
【机器学习】使用贝叶斯模型做分类时,可能会碰到什么问题?怎么解决?
【5月更文挑战第11天】【机器学习】使用贝叶斯模型做分类时,可能会碰到什么问题?怎么解决?
|
5天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】逻辑回归在分类问题中的应用
【4月更文挑战第30天】逻辑回归是用于二分类的统计方法,通过Sigmoid函数将线性输出映射到[0,1],以预测概率。优点包括易于理解、不需要线性关系、鲁棒且能输出概率。缺点是假设观测独立、易过拟合及需大样本量。在Python中,可使用`sklearn`的`LogisticRegression`实现模型。尽管有局限,但在适用场景下,逻辑回归是强大且有价值的分类工具。
|
5天前
|
机器学习/深度学习 数据采集 SQL
【Python机器学习专栏】使用Pandas处理机器学习数据集
【4月更文挑战第30天】本文介绍了如何使用Python的Pandas库处理机器学习数据集,涵盖数据读取、概览、清洗、转换、切分和保存等步骤。通过Pandas,可以从CSV等格式加载数据,进行缺失值、异常值处理,数据类型转换,如归一化、类别编码,并实现训练集与测试集的划分。此外,还展示了如何保存处理后的数据,强调了Pandas在数据预处理中的重要性。
|
5天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

热门文章

最新文章