sklearn.feature_extraction.text.CountVectorizer提取文本特征,将文档词块化

简介:
sklearn.feature_extraction.text. CountVectorizer ( input=u'content' encoding=u'utf-8' decode_error=u'strict' ,
strip_accents=None lowercase=True preprocessor=None tokenizer=None stop_words=None , token_pattern=u'(? u)\b\w\w+\b' ngram_range=(1 1) analyzer=u'word' max_df=1.0 min_df=1 , max_features=None vocabulary=None binary=False dtype=<type 'numpy.int64'> )

作用:Convert a collection of text documents to a matrix of token counts(计算词汇的数量,即tf);结果由 scipy.sparse.coo_matrix进行稀疏表示。
看下参数就知道CountVectorizer在提取tf时都做了什么:
strip_accents  : {‘ascii’, ‘unicode’, None}:是否除去“音调”,不知道什么是“音调”?看:http://textmechanic.com/?reqp=1&reqr=nzcdYz9hqaSbYaOvrt==

lowercase  : boolean, True by default:计算tf前,先将所有字符转化为小写。 这个参数一般为True。

preprocessor  : callable or None (default):复写the preprocessing (string transformation) stage,但保留tokenizing and n-grams generation steps. 这个参数可以自己写。

tokenizer  : callable or None (default):复写the string tokenization step,但保留preprocessing and n-grams generation steps. 这个参数可以自己写。

stop_words  : string {‘english’}, list, or None (default):如果是‘english’, a built-in stop word list for English is used。如果是a list,那么最终的tokens中将去掉list中的所有的stop word。如果是None, 不处理停顿词;但 参数 max_df 可以设置为 [0.7, 1.0) 之间,进而根据 intra corpus document frequency(df)  of terms自动detect and filter stop words。这个参数要根据自己的需求调整。

token_pattern  : string:正则表达式,默认筛选长度大于等于2的字母和数字混合字符(select tokens of 2 or more alphanumeric characters ),参数analyzer设置为word时才有效。

ngram_range  : tuple (min_n, max_n):n-values值得上下界,默认是 ngram_range=(1 1), 该范围之内的n元feature都会被提取出来! 这个参数要根据自己的需求调整。

analyzer  : string, {‘word’, ‘char’, ‘char_wb’} or callable:特征基于wordn-grams还是character n-grams。如果是callable是自己复写的从the raw, unprocessed input提取特征的函数。

max_df  : float in range [0.0, 1.0] or int, default=1.0:
min_df  : float in range [0.0, 1.0] or int, default=1:按比例,或绝对数量删除df超过max_df或者df小于min_df的word tokens。有效的前提是参数vocabulary设置成Node。
max_features  : int or None, default=None:选择tf最大的max_features个特征。有效的前提是参数vocabulary设置成Node。

vocabulary  : Mapping or iterable, optional:自定义的特征word tokens,如果不是None,则只计算vocabulary中的词的tf。 还是设为None靠谱。

binary  : boolean, default=False:如果是True,tf的值只有0和1,表示出现和不出现,useful for discrete probabilistic models that model binary events rather than integer counts.。

dtype  : type, optional:Type of the matrix returned by fit_transform() or transform().。
目录
相关文章
|
存储 索引
文本特征提取-TfidfVectorizer和CountVectorizer
文本特征提取-TfidfVectorizer和CountVectorizer
245 0
文本特征提取-TfidfVectorizer和CountVectorizer
|
4月前
|
自然语言处理 数据挖掘 BI
数据标注工具 doccano | 文本分类(Text Classification)
数据标注工具 doccano | 文本分类(Text Classification)
82 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
ARTIST的中文文图生成模型问题之在EasyNLP中使用ARTIST模型的问题如何解决
ARTIST的中文文图生成模型问题之在EasyNLP中使用ARTIST模型的问题如何解决
|
7月前
|
人工智能 自然语言处理 搜索推荐
文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首
在人工智能的浪潮中,大型语言模型(LLM)无疑是最引人注目的潮头。在支撑这些大型语言模型应用落地方面,文本向量化模型(Embedding Model)的重要性也不言而喻。 近期,我在浏览huggingface发现,国产自研文本向量化模型acge_text_embedding(以下简称“acge模型”)已经在业界权威的中文语义向量评测基准C-MTEB(Chinese Massive Text Embedding Benchmark)中获得了第一名。
文本向量化模型新突破——acge_text_embedding勇夺C-MTEB榜首
|
7月前
|
机器学习/深度学习 数据挖掘 API
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
40 2
|
7月前
|
机器学习/深度学习 自然语言处理 算法
使用sklearn+jieba完成一个文档分类器
使用sklearn+jieba完成一个文档分类器
|
数据挖掘
基于text2vec进行文本向量化、聚类
基于text2vec进行文本向量化、聚类
1246 0
|
自然语言处理 算法 Python
|
机器学习/深度学习 数据采集 Python
独热编码(One-Hot Encoding)和 LabelEncoder标签编码 区别 数据预处理:(机器学习) sklearn
独热编码(One-Hot Encoding)和 LabelEncoder标签编码 区别 数据预处理:(机器学习) sklearn
752 0
独热编码(One-Hot Encoding)和 LabelEncoder标签编码 区别 数据预处理:(机器学习) sklearn
|
机器学习/深度学习 Python
【机器学习技巧】之特征工程:数字编码以及One-hot独热编码的几种方式(sklearn与pandas处理方式)
【机器学习技巧】之特征工程:数字编码以及One-hot独热编码的几种方式(sklearn与pandas处理方式)
【机器学习技巧】之特征工程:数字编码以及One-hot独热编码的几种方式(sklearn与pandas处理方式)