Levenshtein Distance算法实现简单文本相似度分析

简介:

前一篇使用了LCS算法实现了文本相似度分析,使用过程中发现运行效率并不是太好,瓶颈主要体现在逐字比较的算法上,对于长一点的文本,其消耗的时间成倍增加。因此在不考虑使用基于语义分析(机器学习)算法的基础上,采用一种简化并且有效的方法。

Levenshtein Distance 该算法又称之为 "编辑距离",用于计算两个字符串的相似程度。原理很简单,就是返回将第一个字符串转换(删除、插入、替换)成第二个字符串的编辑次数。次数越少,意味着字符串相似度越高。向上扩展至整篇文本,可以采用这种方法的变体实现,将原来的逐字转换为逐段。

算法过程:

1. 对两部分文本进行处理,将所有的非文本字符替换为分段标记“#”

2. 较长文本作为基准文本,遍历分段之后的短文本,发现长文本包含短文本子句后在长本文中移除。未发现匹配的字句累加长度。

3. 比较剩余文本长度与两段文本长度和。其值为不匹配比率。

代码如下:

private final String content_regex = "(?i)[^a-zA-Z0-9\u4E00-\u9FA5]";
 
 private float calculateContentSimilarityS(String content1, String content2){
  
  if (content1 == null || content2 == null) {
   return 0.00f;
  }
  
  if(content1.length() == 0  || content2.length() == 0){
   return 0.00f;
  }
  
  String s1 = content1.replaceAll("content_regex", "").trim();
  String s2 = content2.replaceAll("content_regex", "").trim();
  
  if(s1.length() == 0  || s2.length() == 0){
   return 0.00f;
  }

  if (s1.equals(s2)) {
   return 1.00f;
  } else {
   if (s1.length() > s2.length() ? (s1.indexOf(s2) > -1) : (s2
     .indexOf(s1) > -1)) {
    return s1.length() > s2.length() ? ((float) s2.length() / (float) s1
      .length())
      : ((float) s1.length() / (float) s2.length());
   }
  } 
  
  return calculateContentSimilarityDS(
    content1.replaceAll(" ", "").replaceAll(content_regex, "#/"),
    content2.replaceAll(" ", "").replaceAll(content_regex, "#/"));

 }
 
 /**
  * 判断两段正文相似度
  * 
  * @param content1
  * @param content2
  * @return
  */
 private float calculateContentSimilarityDS(String content1, String content2) {

  String s1;
  StringBuffer s2;

  if(content1.length() > content2.length()){
   s1 = content2;
   s2 = new StringBuffer(content1);
  } else{
   s1 = content1;
   s2 = new StringBuffer(content2);
  }
  
  String[] s1s = s1.split("#/");
  
  int abandenCount = 0;
  int totalLength = s1.length() + s2.length();
  
  for (String s : s1s) {
   
   int index = s2.indexOf("#" + s + "#");
   
   if(index > 0){   
    s2 = s2.replace(index, index + s.length(), "");
   } else{
    abandenCount =  s.length() + 1;
   }
   
  }
  
  return 1.00f - ((float)(s2.length() + abandenCount) / (float)totalLength);
 }

附注:判断相似度阈值还需依据个人经验来进行设定,建议采用动态算法实现(对短文本要求较高的阈值,对长文本要求较低的阈值)。


本文转自william_xu 51CTO博客,原文链接:http://blog.51cto.com/williamx/752730,如需转载请自行联系原作者

相关文章
|
3月前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
233 3
|
6月前
|
机器学习/深度学习 边缘计算 算法
NOMA和OFDMA优化算法分析
NOMA和OFDMA优化算法分析
317 127
|
8月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
469 4
|
3月前
|
存储 边缘计算 算法
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
|
4月前
|
机器学习/深度学习 算法 5G
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
172 0
|
5月前
|
编解码 算法 5G
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
363 2
|
5月前
|
人工智能 自然语言处理 算法
2025 年 7 月境内深度合成服务算法备案情况分析报告
2025年7月,中央网信办发布第十二批深度合成算法备案信息,全国389款产品通过备案,服务提供者占比超七成。截至7月14日,全国累计备案达3834款,覆盖文本、图像、音视频等多模态场景,广泛应用于生活服务、医疗、金融等领域。广东以135款居首,数字人、AI客服等C端应用主导,民营企业成主力,国企聚焦公共服务。随着AI政策推动,备案已成为AI产品合规上线关键环节。
|
8月前
|
存储 监控 算法
员工行为监控软件中的 Go 语言哈希表算法:理论、实现与分析
当代企业管理体系中,员工行为监控软件已逐步成为维护企业信息安全、提升工作效能的关键工具。这类软件能够实时记录员工操作行为,为企业管理者提供数据驱动的决策依据。其核心支撑技术在于数据结构与算法的精妙运用。本文聚焦于 Go 语言中的哈希表算法,深入探究其在员工行为监控软件中的应用逻辑与实现机制。
197 14
|
9月前
|
自然语言处理 算法 安全
境内深度合成服务算法备案通过名单分析报告
本报告基于《境内深度合成服务算法备案通过名单》,分析了2023年6月至2025年3月公布的10批备案数据,涵盖属地分布、行业应用及产品形式等多个维度。报告显示,深度合成算法主要集中于经济发达地区,如北京、广东、上海等地,涉及教育、医疗、金融、娱乐等多行业。未来趋势显示技术将向多模态融合、行业定制化和安全合规方向发展。建议企业加强技术研发、拓展应用场景、关注政策动态,以在深度合成领域抢占先机。此分析旨在为企业提供参考,助力把握技术发展机遇。
境内深度合成服务算法备案通过名单分析报告
|
9月前
|
供应链 算法 搜索推荐
从公布的前十一批其他算法备案通过名单分析
2025年3月12日,国家网信办发布算法备案信息,深度合成算法通过395款,其他算法45款。前10次备案中,深度合成算法累计3234款,其他类别647款。个性化推送类占比49%,涵盖电商、资讯、视频推荐;检索过滤类占31.53%,用于搜索优化和内容安全;调度决策类占9.12%,集中在物流配送等;排序精选类占8.81%,生成合成类占1.55%。应用领域包括电商、社交媒体、物流、金融、医疗等,互联网科技企业主导,技术向垂直行业渗透,内容安全和多模态技术成新增长点。未来大模型检索和多模态生成或成重点。
从公布的前十一批其他算法备案通过名单分析

热门文章

最新文章