算法分类
监督学习 特征值 + 目标值 -分类 目标值是离散数据 -回归 目标值是连续数据 无监督学习 只有特征值 -聚类
数据集
数据
-训练集 80% 70% 75%
-测试集 20% 30% 25%
数据拆分:
sklearn.model_selection.train_test_split
sklearn数据集
sklearn.datasets -小规模数据集 -datasets.load_*() -已下载 -大规模数据集 -datasets.fetch_*() - 需要下载默认目录:~/scikit_learn_data/
数据类型
datasets.base.Bunch(字典格式) data:特征数据 二维数组[n_samples * n_features] target: 标签数组 DESCR: 数据描述 feature_names:特征名(新闻数据,手写数字,回归数据集没有) target_names:标签名
数据集介绍
分类数据集
鸢尾花数据集 sklearn.datasets.load_iris
新闻数据集 sklearn.datasets.fetch_20newsgroups
回归数据集
波士顿房价数据集 sklearn.datasets.load_boston
糖尿病数据集 sklearn.datasets.load_diabetes