sklearn.datasets.fetch_20newsgroups

简介:
sklearn.datasets. fetch_20newsgroups (data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)


fetch_20newsgroups的作用是加载文件名,加载20个新闻群组数据集中的数据
参数:data_home:可选参数,默认值为:None
指定一个电脑中的路径来存储加载的数据。如果选择默认,那所有的scikit-learn数据都存储在'~/scikit_learn_data'这个子文件夹中
      subset:'train'或者'test','all',可选参数
选择加载得到的数据集用来做训练还是做测试,或者是两者都选择,可以随用户需要来选择
      categories:空集,或者是字符串集合,或者是unicode码
是指类别,如果指定类别,就会只提取出目标类,如果是默认,则是提取所有类别出来。
      shuffle:bool布尔类型,可选参数
是否需要打乱数据:这一参数对于一些需要让假设样本数据具有独立同分布的模型来说至关重要,如随机梯度下降
      random_state:numpy随机数产生器,或者是种子整数
主要是用来清洗数据
      remove:元组
包含头文件(‘headers’,‘footers’,'‘quotes’)的所有子集。都是从新闻群组帖子中被检测或者是移除的各种各样的文本,防止分类器在利用复杂数据特征属性进行分类过程中过拟合
'headers'去除新闻的头部数据, 'footers'去除新闻位置最后类似于签名区域的一整块区域,'quotes'移除引用其他新闻帖子的行
'headers'遵从一个精确的标准;其他的过滤器不一定一直正确
      download_if_missing:可选参数,默认值是:真(True)
如果是Flase, 数据不是本地可获取的就会引起一个IOError,而不是尝试着从资源网站下载。
目录
相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
sklearn
【7月更文挑战第26天】
46 10
|
5月前
|
存储 数据可视化 PyTorch
PyTorch中 Datasets & DataLoader 的介绍
PyTorch中 Datasets & DataLoader 的介绍
122 0
|
机器学习/深度学习 API
sklearn相关3
sklearn介绍
106 1
|
API Python
Sklearn介绍3
Sklearn介绍
94 0
|
数据挖掘
Sklearn介绍1
Sklearn介绍
144 0
|
机器学习/深度学习
Sklearn介绍2
Sklearn介绍
71 0
|
Python
解决ImportError: umap.plot requires pandas matplotlib datashader bokeh holoviews scikit-image and colo
解决ImportError: umap.plot requires pandas matplotlib datashader bokeh holoviews scikit-image and colo
256 0
解决ImportError: umap.plot requires pandas matplotlib datashader bokeh holoviews scikit-image and colo
|
机器学习/深度学习 算法 数据挖掘
浅析sklearn中的Pipeline
为什么需要Pipeline? 在日常机器学习项目开发中,可能会经过数据缩放、特征组合以及模型学习拟合等过程;并且,当问题更为复杂时,所应用到的算法以及模型则较为繁杂。
|
网络虚拟化
在torch_geometric.datasets中使用Planetoid手动导入Core数据集及发生相关错误解决方案
在torch_geometric.datasets中使用Planetoid手动导入Core数据集及发生相关错误解决方案
740 0
在torch_geometric.datasets中使用Planetoid手动导入Core数据集及发生相关错误解决方案
|
TensorFlow 算法框架/工具 Python
TensorFlow使用DataSets加载数据
TensorFlow使用DataSets加载数据
92 0