Day01-机器学习-综合分类数据集(Python)

简介: Day01-机器学习-综合分类数据集(Python)

01-包安装

pip install scikit-learn

02-检验是否安装成功

import sklearn
print(sklearn.__version__)

03-相关库介绍

3.1 Numpy库

Numpy是一个扩展的程序库,支持维度数组和矩阵运算,还针对数组运算提供大量的数学函数库。通常来说比较经常见到的是一维和二维数组,多维数组比较少见。

3.2 sklearn库

sklearn,全称scikit-learn,是python中的机器学习库,建立在numpy、scipy、matplotlib等数据科学包的基础之上,涵盖了机器学习中的样例数据、数据预处理、模型验证、特征选择、分类、回归、聚类、降维等几乎所有环节,功能十分强大

3.3 matplotlib库

Matplotlib是一个Python中广泛使用的绘图库,可以用于创建各种类型的静态、动态或交互式图表和可视化。它提供了一系列函数和工具,使得用户可以很方便地对数据进行处理和分析,并将其以图形化的方式呈现出来。

综合分类数据集

4.1 make_classification用法

make_classification函数中,各参数的意义如下:

  • n_samples:生成的样本总数。
  • n_features:生成的特征数(或维度数)。
  • n_informative:在生成样本中有意义的特征数。
  • n_redundant:在生成样本中冗余(不相关)特征的数量。
  • n_clusters_per_class:每个类别中的聚类数量。如果设置为1,则每个类别只包含一个聚类,样本点是线性可分的;如果设置为大于1的值,则生成的样本点可以不是线性可分的。
  • random_state:随机种子,用于控制生成的样本的随机性。
    这些参数一起影响了生成样本的特征和类别的分布。通过调整这些参数的值,可以生成不同特征和类别分布的样本集,用于机器学习任务和模型测试。

# 定义数据集
x, y = make_classification(n_samples=1000, 
                           n_features=2, 
                           n_informative=2, 
                           n_redundant=0, 
                           n_clusters_per_class=1, 
                           random_state=4)

该代码段创建了一个具有2个特征的数据集,总共包含1000个样本。其中,每个样本有2个有信息量的特征(n_informative=2),没有冗余特征(n_redundant=0),每个类别只包含一个聚类(n_clusters_per_class=1)。通过设置这些参数,生成的数据集具有明确的特征分布,可以用于分类问题的模型训练和评估。

4.2 综合分类数据集

from numpy import where
from sklearn.datasets import make_classification
from matplotlib import pyplot
# 定义数据集
X, y = make_classification(n_samples=1000,
                           n_features=2,
                           n_informative=2,
                           n_redundant=0,
                           n_clusters_per_class=1,
                           random_state=4)
# 为每个类的样本创建散点图
for class_value in range(2):
    # 获取此类的示例的行索引
    row_ix = where(y == class_value)
    # 创建这些样本的散布
    pyplot.scatter(X[row_ix, 0], X[row_ix, 1])
    # 绘制散点图
pyplot.show()

结果图如下所示:


89.png


image.png


完结撒花!


目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
160 4
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
134 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习:从理论到Python代码实践
【10月更文挑战第36天】本文将深入浅出地介绍机器学习的基本概念、主要算法及其在Python中的实现。我们将通过实际案例,展示如何使用scikit-learn库进行数据预处理、模型选择和参数调优。无论你是初学者还是有一定基础的开发者,都能从中获得启发和实践指导。
72 2
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
58 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
78 0
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
Python在数据科学中的应用:从数据处理到模型训练
Python在数据科学中的应用:从数据处理到模型训练
|
8月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
265 14
|
8月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
154 1
|
8月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)

热门文章

最新文章