①机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)

简介: 机器学习之自然语言处理——基于TfidfVectorizer和CountVectorizer及word2vec构建词向量矩阵(代码+原理)

理论知识准备

前期我们对分词进行了详细的讲解,那么分词之后,哪些关键词对一个文档才是重要的?比如可以通过单词出现的次数,次数越多就表示越重要。

构造文本特征向量

Count (文档:空格连接的字符串)


TFIDF (文档:空格连接的字符串)


Word2Vec (文档:分词列表)


TF-IDF 值

单词的TF-IDF 值可以描述一个单词对文档的重要性,TF-IDF 值越大,则越重要。


TF:全称是Term Frequency,即词频(单词出现的频率),也就是一个单词在文档中出现的次数,次数越多越重要。


计算公式:一个单词的词频TF = 单词出现的次数 / 文档中的总单词数


IDF:全称是Inverse Document Frequency,即逆向文档词频,是指一个单词在文档中的区分度。


它认为一个单词出现在的文档数越少,这个单词对该文档就越重要,就越能通过这个单词把该文档和其他文档区分开。


计算公式:一个单词的逆向文档频率 IDF = log(文档总数 / 该单词出现的文档数 + 1)


为了避免分母为0(有些单词可能不在文档中出现),所以在分母上加1

image.png


IDF 是一个相对权重值,公式中log 的底数可以自定义,一般可取2,10,e 为底数。


假设有一篇文章,文章中共有2000 个词组,“好看”出现100 次。假设全网共有1 亿篇文章,其中包含“好看”的有200 万篇。现在我们要求“好看”的TF-IDF值。


TF(中国) = 100 / 2000 = 0.05
IDF(中国) = log(1亿/(200万+1)) = 1.7 # 这里的log 以10 为底
TF-IDF(中国) = 0.05 * 1.7 = 0.085


通过计算文档中单词的TF-IDF 值,我们就可以提取文档中的特征属性,就是把TF-IDF 值较高的单词,作为文档的特征属性。


sklearn中TfidfVectorizer

sklearn 库的 feature_extraction.text 模块中的 TfidfVectorizer 类,可以计算 TF-IDF 值。


参数介绍:


TfidfVectorizer(*, 
  input='content', 
  encoding='utf-8', 
  decode_error='strict', 
  strip_accents=None, 
  lowercase=True, 
  preprocessor=None, 
  tokenizer=None, 
  analyzer='word', 
  stop_words=None, 
  token_pattern='(?u)\b\w\w+\b', 
  ngram_range=(1, 1), 
  max_df=1.0, 
  min_df=1, 
  max_features=None, 
  vocabulary=None, 
  binary=False, 
  dtype=<class 'numpy.float64'>, 
  norm='l2', 
  use_idf=True, 
  smooth_idf=True, 
  sublinear_tf=False)


参数解释:


input:有三种取值:


filename

file

content:默认值为content。


analyzer:有三种取值,分别是:


word:默认值为word。

char

char_wb


stop_words:表示停用词,有三种取值:


english:会加载自带英文停用词。

None:没有停用词,默认为None。

List类型的对象:需要用户自行加载停用词。只有当参数 analyzer == ‘word’ 时才起作用。


token_pattern:


表示过滤规则,是一个正则表达式,不符合正则表达式的单词将会被过滤掉。 注意默认的 token_pattern 值为

r’(?u)\b\w\w+\b’,匹配两个以上的字符,如果是一个字符则匹配不上。只有参数 analyzer == ‘word’

时,正则才起作用。


max_df:


用于描述单词在文档中的最高出现率,取值范围为 [0.0~1.0]。 比如 max_df=0.6,表示一个单词在 60%

的文档中都出现过,那么认为它只携带了非常少的信息,因此就不作为分词统计。


mid_df:单词在文档中的最低出现率,一般不用设置。


常用的方法有


t.fit(raw_docs):用raw_docs 拟合模型。


t.transform(raw_docs):将 raw_docs 转成矩阵并返回,其中包含了每个单词在每个文档中的 TF-IDF 值。


t.fit_transform(raw_docs):可理解为先 fit 再 transform。


在上面三个方法中:


t 表示 TfidfVectorizer 对象。

raw_docs 参数是一个可遍历对象,其中的每个元素表示一个文档。


fit_transform 与 transform 的用法


一般在拟合转换数据时,先处理训练集数据,再处理测试集数据。 训练集数据会用于拟合模型,而测试集数据不会用于拟合模型。所以:

fit_transform 用于训练集数据。 transform 用于测试集数据,且 transform 必须在 fit_transform

之后。

如果测试集数据也用 fit_transform 方法,则会造成过拟合。


代码实例

#中文分词
import jieba
str1 = "今天天气很好,不如我们去走走吧!"
str2 = "如果每一次天气都下雨,那么我们的计划就要取消了!"
# 将文本放入一个列表
X = [str1,str2]   # 数据集
y = ['正能量','负能量']  # 目标数据
# 使用结巴将每一个文本样本进行分词,变成空格间隔的词
splited_X = []
for s in X:
    splited_X.append(" ".join(jieba.lcut(s)))
print(splited_X)
# 空格间隔的词的文本可以直接使用sklearn的向量化构造器进行向量化
tv = TfidfVectorizer()
splited_X_metrics = tv.fit_transform(splited_X)
print(tv.get_feature_names())  # 特征向量
print(splited_X_metrics.toarray())



image.png


这里还有很多的默认参数,我们也可以进行指定,这样就可以根据实际的实验场景进行测试了!


import jieba

# 读取数据,一般采取文件读取方式或者pandas读取文本列

word='个人简介:【私信必回】CSDN博客专家、CSDN签约作者、华为云享专家,腾讯云、阿里云、简书、InfoQ创作者。公众号:书剧可诗画,2020年度CSDN优秀创作者。左手诗情画意,右手代码人生,欢迎一起探讨技术的诗情画意!'


# 内置词库的选择,不分词的词语
jieba.add_word("博客专家")
jieba.suggest_freq("签约作者",True)
jieba.suggest_freq("华为云享专家",True)
jieba.suggest_freq("腾讯云",True)
jieba.suggest_freq("阿里云",True)
# 分词模式,精确模式;发现新词模式,使用百度飞浆模式
words = jieba.lcut(word,cut_all=False,HMM=True,use_paddle=True)
# 加载停用词过滤
with open('stopwords.txt', 'r+', encoding = 'utf-8')as fp:
    stopwords = fp.read().split('\n')  #将停用词词典的每一行停用词作为列表中的一个元素
word_list = []  #用于存储过滤停用词后的分词结果
for seg in words:
    if seg not in stopwords:
        word_list.append(seg)
print("*"*50+"分词结果"+"*"*50+'\n')
print(word_list)
tv = TfidfVectorizer(max_features=10)
print("*"*50+"构建词向量矩阵"+"*"*50+'\n')
print(tv.fit_transform(word_list).toarray())
print(tv.get_feature_names_out())  # 默认使用所有的词构建词袋
print(tv.vocabulary_)



image.png


CountVectorizer()

这个函数的作用是:生产 文档 - 词频 矩阵,如:

结构如下:

image.png


#只列出常用的参数
contv = CountVectorizer(encoding=u'utf-8', decode_error=u'strict',
lowercase=True,  stop_words=None,
token_pattern=u'(?u)\b\w\w+\b', ngram_range=(1, 1),
 analyzer=u'word', max_df=1.0, min_df=1,max_features=None,
 vocabulary=None, binary=False, dtype=<type 'numpy.int64'>)
相关文章
|
9月前
|
机器学习/深度学习 人工智能 Kubernetes
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
Argo Workflows 是 Kubernetes 上的工作流引擎,支持机器学习、数据处理、基础设施自动化及 CI/CD 等场景。作为 CNCF 毕业项目,其扩展性强、云原生轻量化,受到广泛采用。近期更新包括性能优化、调度策略增强、Python SDK 支持及 AI/大数据任务集成,助力企业高效构建 AI、ML、Data Pipelines。
945 0
|
10月前
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
451 6
|
10月前
|
机器学习/深度学习 数据采集 分布式计算
阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型
本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。
1519 0
|
10月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
793 46
|
10月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
11月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
12月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
机器学习/深度学习 算法 Python
机器学习特征筛选:向后淘汰法原理与Python实现
向后淘汰法(Backward Elimination)是机器学习中一种重要的特征选择技术,通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能,减少过拟合,降低计算复杂度。然而,该方法在高维特征空间中计算成本较高,且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。
485 7
|
机器学习/深度学习 数据采集 分布式计算
大数据分析中的机器学习基础:从原理到实践
大数据分析中的机器学习基础:从原理到实践
696 3
下一篇
开通oss服务