二、常用数据
1 使用函数生成数据
1.1 生成一个随机回归问题
X,y = make_regression()
- n_samples:样本数。
- n_features:特征数(自变量个数)。
- n_informative:参与建模特征数。
- n_targets:因变量个数。
- noise:噪音。
- bias:偏差(截距)。
- coef:是否输出coef标识。
- random_state:随机生成器的种子。
返回:
- X:形状数组(n个样本,n个特征) 输入样本。
- y:n个形状数组(n个样本,)或(n个样本,n个目标) 输出值。
- coef:基础线性模型的系数。仅当coef为True时才返回。
1.2 生成各向同性高斯斑点用于聚类
X,y = make_blobs()
- n_samples:表示数据样本点个数,默认值100。
- n_features:表示数据的维度,默认值是2。
- centers:产生数据的中心点,默认值3。
- cluster_std:数据集的标准差,浮点数或者浮点数序列,默认值1.0。
- center_box:中心确定之后的数据边界,默认值(-10.0, 10.0)。
- shuffle:打乱样本和特征,默认值是True。
- random_state:随机生成器的种子。
返回:
- X:生成的样本。。
- y:每个样本的聚类成员的整数标签。
- coef:每个星团的中心。仅当return_centers=True时返回。。
1.3生成一个随机n类分类问题
data=mak_classification()
- n_samples:样本数。
- n_features:特征个数= n_informative() + n_redundant + n_repeated。
- n_informative:多信息特征的个数。
- n_redundant:冗余信息,informative特征的随机线性组合。
- n_repeated=0:重复信息,随机提取n_informative和n_redundant 特征。
- n_classes:分类类别。
- n_clusters_per_class:某一个类别是由几个cluster构成的。
- weights:列表类型,权重比。
- flip_y:随机分配类别的样本分数。较大的值会在标注中引入噪声,使分类任务更加困难。请注意,默认设置flip_y > 0在某些情况下可能会导致y中少于n_classes。
- class_sep:乘以超立方体大小的因子。较大的值分散了簇/类,并使分类任务更容易。
- hypercube:如果为真,则聚类被放置在超立方体的顶点上。如果为False,则簇被放置在随机多面体的顶点上。。
- shift:按指定值移动要素。如果没有,则按照[-class_sep,class_sep]中绘制的随机值移动要素。
- scale:将要素乘以指定的值。如果没有,则按[1,100]中绘制的随机值缩放要素。请注意,缩放发生在移位之后。。
- shuffle:打乱样本和特征,默认值是True。
- random_state:如果是int,random_state是随机数发生器使用的种子; 如果RandomState实例,random_state是随机数生成器; 如果没有,则随机数生成器是np.random使用的RandomState实例。
返回:
X:形状数组[n_samples,n_features]生成的样本。
y:每个样本的类成员的整数标签[n_samples, ]。
2 Sklearn数据库
引用
from sklearn.datasets import *
Sklearn自带数据如下
数据集 |
函数 |
介绍 |
鸢尾花数据集 |
load_iris() |
用于分类任务的数据集 |
手写数字数据集 |
load_digits() |
用于分类任务或者降维任务的数据集 |
乳腺癌数据集 |
load_breast_cancer() |
简单经典的用于二分类任务的数据集 |
糖尿病数据集 |
load_diabetes() |
经典的用于回归认为的数据集 |
波士顿房价数据集 |
load_boston() |
经典的用于回归任务的数据集 |
体能训练数据集 |
load_linnerud() |
经典的用于多变量回归任务的数据集 |
红酒数据集 |
load_wine() |
经典的用于多变量回归任务的数据集 |
两个月亮集 |
make_moons() |
二分类数据集,像两个月亮一样(太极) |
函数 |
介绍 |
fetch_olivetti_faces() |
脸部图片数据集 |
fetch_20newsgroups() |
用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器。向量化后的数据fetch_20newsgroups_vectorized(),返回一个已提取特征的文本序列,即不需要使用特征提取器 |
fetch_lfw_people() |
打好标签的人脸数据集 |
fetch_lfw_pairs() |
该任务称为人脸验证:给定一对两张图片,二分类器必须预测这两个图片是否来自同一个人 |
fetch_covtype() |
森林植被类型,总计581012个样本,每个样本由54个维度表示(12个属性,其中2个分别是onehot4维和onehot40维),以及target表示植被类型1-7,所有属性值均为number,详情可调用fetch_covtype()['DESCR']了解每个属性的具体含义 |
fetch_rcv1() |
路透社新闻语料数据集 |
fetch_kddcup99() |
KDD竞赛在1999年举行时采用的数据集,KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础,包含41项特征 |
fetch_california_housing() |
加利福尼亚的房价数据,总计20640个样本,每个样本8个属性表示,以及房价作为target,所有属性值均为number,详情可调用fetch_california_housing()['DESCR']了解每个属性的具体含义 |
fetch_species_distributions() |
物种分布数据集 |
在这些数据里面,以下数据是经常被用到的:
- 鸢尾花数据集:load_iris(),用于分类任务的数据集;
类别:3。
每类样品:50。
样本数:150。
维度:4。
特征:实数, 正数。
通过load_iris().DESCR获得详细内容。
- 红酒数据集:load_wine(),经典的用于多变量回归任务的数据集;
类别:3。
每类样品:[59,71,48]。
样本数:178。
维度:13。
特征:实数,正数。
load_wine ().DESCR获得详细内容。
- 乳腺癌数据集:load_breast_cancer(),简单经典的用于二分类任务的数据集;
类别:2。
每类样品:212(M),357(B)。
样本数:569。
维度:30。
特征:实数,正数。
load_breast_cancer ().DESCR获得详细内容。
- 糖尿病数据集:load_diabetes(),经典的用于回归认为的数据集;
样本总数:442。
维度:10。
特征:实数-.2 < x < .2。
目标:整数25 – 346。
load_diabetes ().DESCR获得详细内容。
- 波士顿房价数据集:load_boston(),经典的用于回归任务的数据集;
样本总数:506。
维度:13。
特征:实数,正数。
目标:real 5. - 50. 。
load_boston().DESCR获得详细内容。
- 两个月亮集:make_moons(),二分类数据集,像两个月亮一样(太极)。