【Python自然语言处理】计算文本相似度实例(使用difflib,fuzz,余弦三种计算方式 附源码)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 【Python自然语言处理】计算文本相似度实例(使用difflib,fuzz,余弦三种计算方式 附源码)

需要全部代码请点赞关注收藏后评论区留言私信~~~

下面列举通过余弦相似度公式和标准库分别计算不同文本信息相似度的实例,首先需要对中文进行分词,通过jieba导入分词库文件,使用Python标准库计算相似度,导入两种不同的相似度计算库difflib和fuzz,除此之外,还自定义了基于余弦相似度公式的相似度计算方法

接着定义余弦相似度计算函数,函数参数部分传入需要比较的两个文本信息,先对文本进行向量化处理,dot计算出两个向量之间的点积,即相同维度上的值的乘积和,如果A和B是同一个向量,则求出的是欧几里得距离平方,余弦相似度函数返回的是根据余弦相似度计得出的结果 代码如下

# 余弦相似度
def similarity(text1, text2):        
    cos_text1 = (Counter(text1))
    cos_text2 = (Counter(text2))
    similarity_text1 = []
    similarity_text2 = []
    for i in set(text1 + text2):
        similarity_text1.append(cos_text1[i])
        similarity_text2.append(cos_text2[i])
    similarity_text1 = np.array(similarity_text1)
    similarity_text2 = np.array(similarity_text2)
    return similarity_text1.dot(similarity_text2) / (np.sqrt(similarity_text1.dot(similarity_text1)) * np.sqrt(similarity_text2.dot(similarity_text2)))

接下来定义停用词信息,停用词信息可以根据实际需要灵活调整,并定义需要比较的文本信息

停用词就是比较的时候不考虑他们

#停用词
stopwords = {}.fromkeys([',', '。', ';',':'])
text1 = "新冠疫情对世界产生了深刻影响,人们更注重保持社交距离。"
text2 = "新冠疫情对世界影响很大,但很多人仍然不注意保持社交距离。"

最后根据不同标准库以及余弦相似度计算得出结果 结果近似到小数点后面三位,并计算转换成百分数表达的余弦相似度值

最后 代码如下

#jieba分词
import jieba    
#Python标准库计算相似度              
import difflib     
#Python标准库计算相似度           
from fuzzywuzzy import fuzz   
import numpy as np
from collections import Counter
# 余弦相似度
def similarity(text1, text2):        
    cos_text1 = (Counter(text1))
    cos_text2 = (Counter(text2))
    similarity_text1 = []
    similarity_text2 = []
    for i in set(text1 + text2):
        similarity_text1.append(cos_text1[i])
        similarity_text2.append(cos_text2[i])
    similarity_text1 = np.array(similarity_text1)
    similarity_text2 = np.array(similarity_text2)
    return similarity_text1.dot(similarity_text2) / (np.sqrt(similarity_text1.dot(similarity_text1)) * np.sqrt(similarity_text2.dot(similarity_text2)))
#停用词
stopwords = {}.fromkeys([',', '。', ';',':'])
text1 = "新冠疫情对世界产生了深刻影响,人们更注重保持社交距离。"
text2 = "新冠疫情对世界影响很大,但很多人仍然不注意保持社交距离。"
text1_cut = [i for i in jieba.cut(text1, cut_all=False) if i != '' and i not in stopwords]
text2_cut = [j for j in jieba.cut(text2, cut_all=False) if j != '' and j not in stopwords]
# jieba分词并去除停用词
print('文本1分词后结果:', text1_cut)     
print('文本2分词后结果:', text2_cut)  
zz=str(round(fuzz.ratio(text1, text2)/100,3)*100)+"%"
sim_cos=str(round(similarity(text1_cut, text2_cut),3)*100)+"%"
print('(1):基于difflib的相似度:', sim_diff)
print('(2):基于fuzz的相似度:', sim_fuzz)
print('(3):余弦相似度:', sim_cos)

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
3月前
|
机器学习/深度学习 监控 算法
基于mediapipe深度学习的手势数字识别系统python源码
本内容涵盖手势识别算法的相关资料,包括:1. 算法运行效果预览(无水印完整程序);2. 软件版本与配置环境说明,提供Python运行环境安装步骤;3. 部分核心代码,完整版含中文注释及操作视频;4. 算法理论概述,详解Mediapipe框架在手势识别中的应用。Mediapipe采用模块化设计,包含Calculator Graph、Packet和Subgraph等核心组件,支持实时处理任务,广泛应用于虚拟现实、智能监控等领域。
|
3天前
|
小程序 PHP 图形学
热门小游戏源码(Python+PHP)下载-微信小程序游戏源码Unity发实战指南​
本文详解如何结合Python、PHP与Unity开发并部署小游戏至微信小程序。涵盖技术选型、Pygame实战、PHP后端对接、Unity转换适配及性能优化,提供从原型到发布的完整指南,助力开发者快速上手并发布游戏。
|
2月前
|
算法 数据可视化 数据挖掘
基于EM期望最大化算法的GMM参数估计与三维数据分类系统python源码
本内容展示了基于EM算法的高斯混合模型(GMM)聚类实现,包含完整Python代码、运行效果图及理论解析。程序使用三维数据进行演示,涵盖误差计算、模型参数更新、结果可视化等关键步骤,并附有详细注释与操作视频,适合学习EM算法与GMM模型的原理及应用。
|
2月前
|
API 数据安全/隐私保护 开发者
企业微信自动加好友软件,导入手机号批量添加微信好友,python版本源码分享
代码展示了企业微信官方API的合规使用方式,包括获取access_token、查询部门列表和创建用户等功能
|
2月前
|
机器人 API 数据安全/隐私保护
QQ机器人插件源码,自动回复聊天机器人,python源码分享
消息接收处理:通过Flask搭建HTTP服务接收go-cqhttp推送的QQ消息47 智能回复逻辑
|
4月前
|
算法 Python
Apriori算法的Python实例演示
经过运行,你会看到一些集合出现,每个集合的支持度也会给出。这些集合就是你想要的,经常一起被购买的商品组合。不要忘记,`min_support`参数将决定频繁项集的数量和大小,你可以根据自己的需要进行更改。
164 18
|
5月前
|
前端开发 JavaScript 关系型数据库
基于python的租房网站-房屋出租租赁系统(python+django+vue)源码+运行
该项目是基于python/django/vue开发的房屋租赁系统/租房平台,作为本学期的课程作业作品。欢迎大家提出宝贵建议。
163 6
|
5月前
|
前端开发 JavaScript 关系型数据库
基于Python+Vue开发的美容预约管理系统源码+运行
基于Python+Vue开发的美容预约管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的美容诊所预约管理系统项目,大学生可以在实践中学习和提升自己的能力,为以后的职业发展打下坚实基础。
89 9
|
5月前
|
JavaScript 前端开发 关系型数据库
基于Python+Vue开发的体育场馆预约管理系统源码+运行
本项目为大学生课程设计作业,采用Python和Vue技术构建了一个体育场馆预约管理系统(实现前后端分离)。系统的主要目标在于帮助学生理解和掌握Python编程知识,同时培养其项目规划和开发能力。参与该项目的学习过程,学生能够在实际操作中锻炼技能,为未来的职业发展奠定良好的基础。
129 3
|
5月前
|
前端开发 JavaScript 关系型数据库
基于Python+Vue开发的新闻管理系统源码+运行
基于Python+Vue开发的新闻管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的新闻管理系统项目,大学生可以在实践中学习和提升自己的能力,为以后的职业发展打下坚实基础。
135 5

推荐镜像

更多