使用Python过滤出类似的文本的简单方法

简介: 使用Python过滤出类似的文本的简单方法

问题

假设在存档中有成千上万的文档,其中许多是彼此重复的,即使文档的内容相同,标题不同。现在想象一下,现在老板要求你通过删除不必要的重复文档来释放一些空间。

问题是:如何过滤标题足够相似的文本,以使内容可能相同?接下来,如何实现此目标,以便在完成操作时不会删除过多的文档,而保留一组唯一的文档?让我们用一些代码使它更清楚:

titles= [
"End of Year Review 2020",
"2020 End of Year",
"January Sales Projections",
"Accounts 2017-2018",
"Jan Sales Predictions"]
#Desiredoutputfiltered_titles= [
"End of Year Review 2020",
"January Sales Projections",
"Accounts 2017-2018",
]

根据以上的问题,本文适合那些希望快速而实用地概述如何解决这样的问题并广泛了解他们同时在做什么的人!

接下来,我将介绍我为解决这个问题所采取的不同步骤。下面是控制流的概要:

预处理所有标题文本

生成所有标题成对

测试所有对的相似性

如果一对文本未能通过相似性测试,则删除其中一个文本并创建一个新的文本列表

继续测试这个新的相似的文本列表,直到没有类似的文本留下

用Python表示,这可以很好地映射到递归函数上!

代码

下面是Python中实现此功能的两个函数。

importspacyfromitertoolsimportcombinations#Setglobalsnlp=spacy.load("en_core_web_md")
defpre_process(titles):
"""Pre-processes titles by removing stopwords and lemmatizing text.:param titles: list of strings, contains target titles,.:return: preprocessed_title_docs, list containing pre-processed titles."""#Preprocessallthetitlestitle_docs= [nlp(x) forxintitles]
preprocessed_title_docs= []
lemmatized_tokens= []
fortitle_docintitle_docs:
fortokenintitle_doc:
ifnottoken.is_stop:
lemmatized_tokens.append(token.lemma_)
preprocessed_title_docs.append(" ".join(lemmatized_tokens))
dellemmatized_tokens[
          :
          ]  #emptythelemmatizedtokenslistasthecodemovesontoanewtitlereturnpreprocessed_title_docsdefsimilarity_filter(titles):
"""Recursively check if titles pass a similarity filter.:param titles: list of strings, contains titles.If the function finds titles that fail the similarity test, the above param will be the function output.:return: this method upon itself unless there are no similar titles; in that case the feed that was passedin is returned."""#Preprocesstitlespreprocessed_title_docs=pre_process(titles)
#Removesimilartitlesall_summary_pairs=list(combinations(preprocessed_title_docs, 2))
similar_titles= []
forpairinall_summary_pairs:
title1=nlp(pair[0])
title2=nlp(pair[1])
similarity=title1.similarity(title2)
ifsimilarity>0.8:
similar_titles.append(pair)
titles_to_remove= []
fora_titleinsimilar_titles:
#Gettheindexofthefirsttitleinthepairindex_for_removal=preprocessed_title_docs.index(a_title[0])
titles_to_remove.append(index_for_removal)
#Getindicesofsimilartitlesandremovethemsimilar_title_counts=set(titles_to_remove)
similar_titles= [
x[1] forxinenumerate(titles) ifx[0] insimilar_title_counts  ]
#Exittherecursioniftherearenolongeranysimilartitlesiflen(similar_title_counts) ==0:
returntitles#Continuetherecursioniftherearestilltitlestoremoveelse:
#Removesimilartitlesfromthenextinputfortitleinsimilar_titles:
idx=titles.index(title)
titles.pop(idx)
returnsimilarity_filter(titles)
if__name__=="__main__":
your_title_list= ['title1', 'title2']
similarty_filter(your_title_list)

第一个是预处理标题文本的简单函数;它删除像' the ', ' a ', ' and '这样的停止词,并只返回标题中单词的引理。

如果你在这个函数中输入“End of Year Review 2020”,你会得到“end year review 2020”作为输出;如果你输入“January Sales Projections”,你会得到“january sale projection”。

它主要使用了python中非常容易使用的spacy库.

第二个函数(第30行)为所有标题创建配对,然后确定它们是否通过了余弦相似度测试。如果它没有找到任何相似的标题,那么它将输出一个不相似标题的列表。但如果它确实找到了相似的标题,在删除没有通过相似度测试的配对后,它会将这些过滤后的标题再次发送给它自己,并检查是否还有相似的标题。

这就是为什么它是递归的!简单明了,这意味着函数将继续检查输出,以真正确保在返回“最终”输出之前没有类似的标题。

什么是余弦相似度?

但简而言之,这就是spacy在幕后做的事情……

首先,还记得那些预处理过的工作吗?首先,spacy把我们输入的单词变成了一个数字矩阵。

一旦它完成了,你就可以把这些数字变成向量,也就是说你可以把它们画在图上。

一旦你这样做了,计算两条直线夹角的余弦就能让你知道它们是否指向相同的方向。

640.png

所以,在上图中,想象一下,A线代表“闪亮的橙色水果”,B线代表“闪亮的红苹果是一种水果”。

在这种情况下,行A和行B都对应于空格为这两个句子创建的数字矩阵。这两条线之间的角度——在上面的图表中由希腊字母theta表示——是非常有用的!你可以计算余弦来判断这两条线是否指向同一个方向。

这听起来似乎是显而易见的,难以计算,但关键是,这种方法为我们提供了一种自动化整个过程的方法。

总结

回顾一下,我已经解释了递归python函数如何使用余弦相似性和spacy自然语言处理库来接受相似文本的输入,然后返回彼此不太相似的文本。

可能有很多这样的用例……类似于我在本文开头提到的归档用例,可以使用这种方法在数据集中过滤具有惟一歌词的歌曲,甚至过滤具有惟一内容类型的社交媒体帖子。

目录
相关文章
|
14天前
|
Python
python魔法方法如何应用
【4月更文挑战第12天】这个Python示例展示了类继承和方法重写。`Student`类继承自`Person`,并覆盖了`say_hello`方法。通过`super().__init__(name)`调用父类的`__init__`初始化`name`属性,`Student`添加了`age`属性,并在重写的`say_hello`中使用。创建`Student`实例`student`并调用其`say_hello`,输出定制的问候信息。
20 1
|
2天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
20 0
|
6天前
|
机器学习/深度学习 自然语言处理 API
《Python 语音转换简易速速上手小册》第4章 语音到文本的转换(2024 最新版)(上)
《Python 语音转换简易速速上手小册》第4章 语音到文本的转换(2024 最新版)
20 0
|
6天前
|
机器学习/深度学习 数据采集 自然语言处理
《Python 语音转换简易速速上手小册》第3章 文本到语音的转换(2024 最新版)(上)
《Python 语音转换简易速速上手小册》第3章 文本到语音的转换(2024 最新版)
22 0
|
7天前
|
存储 关系型数据库 MySQL
Python搭建代理IP池实现存储IP的方法
Python搭建代理IP池实现存储IP的方法
|
7天前
|
Python
Python动态IP代理防止被封的方法
Python动态IP代理防止被封的方法
|
7天前
|
数据采集 存储 安全
python检测代理ip是否可用的方法
python检测代理ip是否可用的方法
|
8天前
|
机器学习/深度学习 自然语言处理 算法框架/工具
用于NLP的Python:使用Keras进行深度学习文本生成
用于NLP的Python:使用Keras进行深度学习文本生成
20 2
|
9天前
|
数据可视化 测试技术 Python
在Python和R中使用交叉验证方法提高模型性能
在Python和R中使用交叉验证方法提高模型性能
20 0
|
9天前
|
存储 监控 开发工具
对象存储OSS产品常见问题之python sdk中的append_object方法支持追加上传xls文件如何解决
对象存储OSS是基于互联网的数据存储服务模式,让用户可以安全、可靠地存储大量非结构化数据,如图片、音频、视频、文档等任意类型文件,并通过简单的基于HTTP/HTTPS协议的RESTful API接口进行访问和管理。本帖梳理了用户在实际使用中可能遇到的各种常见问题,涵盖了基础操作、性能优化、安全设置、费用管理、数据备份与恢复、跨区域同步、API接口调用等多个方面。
40 9