sklearn.datasets.
fetch_20newsgroups
(data_home=None, subset='train', categories=None, shuffle=True, random_state=42, remove=(), download_if_missing=True)
fetch_20newsgroups的作用是加载文件名,加载20个新闻群组数据集中的数据
参数:data_home:可选参数,默认值为:None
指定一个电脑中的路径来存储加载的数据。如果选择默认,那所有的scikit-learn数据都存储在'~/scikit_learn_data'这个子文件夹中
subset:'train'或者'test','all',可选参数
选择加载得到的数据集用来做训练还是做测试,或者是两者都选择,可以随用户需要来选择
categories:空集,或者是字符串集合,或者是unicode码
是指类别,如果指定类别,就会只提取出目标类,如果是默认,则是提取所有类别出来。
shuffle:bool布尔类型,可选参数
是否需要打乱数据:这一参数对于一些需要让假设样本数据具有独立同分布的模型来说至关重要,如随机梯度下降
random_state:numpy随机数产生器,或者是种子整数
主要是用来清洗数据
remove:元组
包含头文件(‘headers’,‘footers’,'‘quotes’)的所有子集。都是从新闻群组帖子中被检测或者是移除的各种各样的文本,防止分类器在利用复杂数据特征属性进行分类过程中过拟合
'headers'去除新闻的头部数据, 'footers'去除新闻位置最后类似于签名区域的一整块区域,'quotes'移除引用其他新闻帖子的行
'headers'遵从一个精确的标准;其他的过滤器不一定一直正确
download_if_missing:可选参数,默认值是:真(True)
如果是Flase, 数据不是本地可获取的就会引起一个IOError,而不是尝试着从资源网站下载。