备案控制台登录注册

开发者社区彭世瑜的博客文章正文

Python编程：通过交集并集计算文档相似度

2022-09-04 131

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python编程：通过交集并集计算文档相似度

分词函数

def split_word(document):
    """
    分词，去除停用词
    """
    stop_words = {":", "的", "，", "”"}
    text = []
    for word in jieba.cut(document):
        if word not in stop_words:
            text.append(word)
    return text

通过交集并集计算文档相似度

from itertools import combinations
documents = [
    "窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境",
    "IBM的区块链副总裁JesseLund:比特币将达到100万美元",
    "窝趣公寓完成近2亿元B轮融资"
]
# 计算两两组合的相似度
for doc1, doc2 in combinations(documents, 2):
    words1 = split_word(doc1)
    words2 = split_word(doc2)
    words1_set = set(words1)
    words2_set = set(words2)
    similar12 = len(words1_set & words2_set) / len(words1_set | words2_set)
    print("{:.2f}".format(similar12), doc1, doc2)

计算结果

0.00 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境 IBM的区块链副总裁JesseLund:比特币将达到100万美元
0.53 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境 窝趣公寓完成近2亿元B轮融资
0.00 IBM的区块链副总裁JesseLund:比特币将达到100万美元 窝趣公寓完成近2亿元B轮融资

文章标签：

Python

自然语言处理

关键词：

Python编程

Python计算

Python文档

Python交集

Python编程计算

码农技术君

目录

相关文章

游客qf4jmczx4xu2y

|

1月前

|

人工智能数据可视化数据挖掘

探索Python编程：从基础到高级

在这篇文章中，我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员，都可以从中获得新的知识和技能。我们将从Python的基础语法开始，然后逐步过渡到更复杂的主题，如面向对象编程、异常处理和模块使用。最后，我们将通过一些实际的代码示例，来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧！

游客qf4jmczx4xu2y

76 5 5

游客moiomvrp3vyac2

|

1月前

|

存储数据采集人工智能

Python编程入门：从零基础到实战应用

本文是一篇面向初学者的Python编程教程，旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点，然后通过一个简单的例子展示了如何编写Python代码。接下来，文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后，文章通过一个实战项目——制作一个简单的计算器程序，帮助读者巩固所学知识并提高编程技能。

游客moiomvrp3vyac2

123 2 2

overmind1980

|

1月前

|

Unix Linux 程序员

[oeasy]python053_学编程为什么从hello_world_开始

视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起，讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响，以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。

overmind1980

116 80 81

overmind1980

|

22天前

|

Python

[oeasy]python055_python编程_容易出现的问题_函数名的重新赋值_print_int

本文介绍了Python编程中容易出现的问题，特别是函数名、类名和模块名的重新赋值。通过具体示例展示了将内建函数（如`print`、`int`、`max`）或模块名（如`os`）重新赋值为其他类型后，会导致原有功能失效。例如，将`print`赋值为整数后，无法再用其输出内容；将`int`赋值为整数后，无法再进行类型转换。重新赋值后，这些名称失去了原有的功能，可能导致程序错误。总结指出，已有的函数名、类名和模块名不适合覆盖赋新值，否则会失去原有功能。如果需要使用类似的变量名，建议采用其他命名方式以避免冲突。

overmind1980

40 14 14

郑小健

|

1月前

|

分布式计算大数据数据处理

技术评测：MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口

随着大数据和人工智能技术的发展，数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame（简称“MaxFrame”）是一个专为Python开发者设计的分布式计算框架，它不仅支持Python编程接口，还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评，探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现，并分析其在实际工作中的应用潜力。

郑小健

83 2 3

vohelon

|

1月前

|

Python

Python中的函数是**一种命名的代码块，用于执行特定任务或计算

Python中的函数是**一种命名的代码块，用于执行特定任务或计算

vohelon

57 18 18

请看我回答~

|

1月前

|

小程序开发者 Python

探索Python编程：从基础到实战

本文将引导你走进Python编程的世界，从基础语法开始，逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意，解决问题，并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者，这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧！

请看我回答~

57 10 11

请看我回答~

|

1月前

|

机器学习/深度学习人工智能数据挖掘

探索Python编程的奥秘

在数字世界的海洋中，Python如同一艘灵活的帆船，引领着无数探险者穿梭于数据的波涛之中。本文将带你领略Python编程的魅力，从基础语法到实际应用，一步步揭开Python的神秘面纱。

请看我回答~

49 12 12

请看我回答~

|

1月前

|

IDE 程序员开发工具

Python编程入门：打造你的第一个程序

迈出编程的第一步，就像在未知的海洋中航行。本文是你启航的指南针，带你了解Python这门语言的魅力所在，并手把手教你构建第一个属于自己的程序。从安装环境到编写代码，我们将一步步走过这段旅程。准备好了吗？让我们开始吧！

请看我回答~

71 8 8

游客kwe6k52lwpmug

|

1月前

|

关系型数据库开发者 Python

Python编程中的面向对象设计原则####

在本文中，我们将探讨Python编程中的面向对象设计原则。面向对象编程（OOP）是一种通过使用“对象”和“类”的概念来组织代码的方法。我们将介绍SOLID原则，包括单一职责原则、开放/封闭原则、里氏替换原则、接口隔离原则和依赖倒置原则。这些原则有助于提高代码的可读性、可维护性和可扩展性。 ####

游客kwe6k52lwpmug

42 6 6

热门文章

最新文章

[python 技巧] 快速掌握Streamlit: python快速原型开发工具

农历节日倒计时：基于Python的公历与农历日期转换及节日查询小程序

10个必备Python调试技巧：从pdb到单元测试的开发效率提升指南

自动化微信朋友圈：Python脚本实现自动发布动态

使用 pyenv 来管理多个 Python 版本(2)

局域网屏幕监控系统中的Python数据结构与算法实现

Linux 安装python3.7.6

[oeasy]python053_学编程为什么从hello_world_开始

【Python】怎么解决：urllib.error.HTTPError: HTTP Error 403: Forbidden

让UE自动运行Python脚本：实现与实例解析

如何将训练好的Python模型给JavaScript使用？

python 图片打水印透明图片合并

Python 数据结构和算法实用指南（四）（4）

Python 数据结构和算法实用指南（四）（3）

Python 数据结构和算法实用指南（四）（2）

Python 数据结构和算法实用指南（三）（3）

【Python】—— pandas 数据分析

Python 数据结构和算法实用指南（三）（1）

【Python】—— 如果使用matplotlib做数据可视化

python自动化测试实战 —— 单元测试框架

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

nodejs-release

msys2

下一篇

阿里云开通OSS存储服务详细流程

你好，我是AI助理

可以解答问题、推荐解决方案等