LCS算法实现简单中文文本相似度分析

简介:

LCS(Longest Common Subsequence)算法实现的文本相似度分析:

算法原理:

(1) 将两个字符串分别以行和列组成矩阵。
(2) 计算每个节点行列字符是否相同,如相同则为 1。
(3) 通过找出值为 1 的最长对角线即可得到最长公共子串。

人 民 共 和 时 代
中 0, 0, 0, 0, 0, 0
华 0, 0, 0, 0, 0, 0
人 1, 0, 0, 0, 0, 0
民 0, 1, 0, 0, 0, 0
共 0, 0, 1, 0, 0, 0
和 0, 0, 0, 1, 0, 0
国 0, 0, 0, 0, 0, 0

为进一步提升该算法,我们可以将字符相同节点(1)的值加上左上角(d[i-1, j-1])的值,这样即可获得最大公用子串的长度。如此一来只需以行号和最大值为条件即可截取最大子串。

人 民 共 和 时 代
中 0, 0, 0, 0, 0, 0
华 0, 0, 0, 0, 0, 0
人 1, 0, 0, 0, 0, 0
民 0, 2, 0, 0, 0, 0
共 0, 0, 3, 0, 0, 0
和 0, 0, 0, 4, 0, 0
国 0, 0, 0, 0, 0, 0
 

代码:

private final String content_regex = "(?i)[^a-zA-Z0-9\u4E00-\u9FA5]";
 
 /**
  * 判断两段正文相似度
  * @param content1
  * @param content2
  * @return
  */
 private float calculateContentSimilarity(String content1, String content2){
  
  String s1 = content1.replaceAll("content_regex", "").trim(); 
  String s2 = content2.replaceAll("content_regex", "").trim();
  
  if(s1.equals(s2)){
   return 1.00f;
  }else {
   if (s1.length() > s2.length() ? (s1.indexOf(s2) > -1)
     : (s2.indexOf(s1) > 0)) {
    return s1.length() > s2.length() ? ((float) s2
      .length() / (float) s1.length()) : ((float) s1
      .length() / (float) s2.length());
   }
  }
  
//  return calculateSimilarityLCS(s1, s2);
  
  return calculateContentSimilarityD(content1, content2);
 }
 
 /**
  * 判断两段正文相似度
  * @param content1
  * @param content2
  * @return
  */
 private float calculateContentSimilarityD(String content1, String content2){
  
  String[] s1 = content1.trim().split("。"); 
  String[] s2 = content2.trim().split("。"); 
  
  if(s1.length < s2.length){
   String[] temp = s1;   
   s1 = s2;
   s2 = temp;
  }
  
  float totalWeight = 0;

  for (int i = 0; i < s2.length; i++) {

   float unitWeight = 0;

   for (int j = 0; j < s1.length; j++) {

    if(content2.indexOf(s2[i]) > -1){
     unitWeight = 1.00f;
     break;
    }
    float weight = calculateSimilarityLCS(s2[i], s1[j]);

    if (unitWeight < weight) {
     unitWeight = weight;
    }
   }

   totalWeight += unitWeight;

  }
  
  return (totalWeight/s2.length) * (s2.length/s1.length);
  
 }
 
 
 /**
  * 判断两段文本相似度
  * @param value1
  * @param value2
  * @return
  */
 private float calculateSimilarityLCS(String s1, String s2) {
  int[][] d = new int[s1.length()][s2.length()];

  int index = 0;
  int length = 0;

  for (int i = 0; i < s1.length(); i++) {
   for (int j = 0; j < s2.length(); j++) {
    int n = i - 1 >= 0 && j - 1 >= 0 ? d[i - 1][j - 1] : 0;

    d[i][j] = s1.charAt(i) == s2.charAt(j) ? 1 + n : 0;

    if (d[i][j] > length) {
     length = d[i][j];
     index = i;
    }
   }
  }
  
  int begin = index - length + 1;   
  String simword = s1.substring(begin, begin + length) ;

  return s1.length() > s2.length() ? ((float) simword
    .length() / (float) s1.length()) : ((float) simword
    .length() / (float) s2.length());
 }

 本文转自william_xu 51CTO博客,原文链接:http://blog.51cto.com/williamx/747485,如需转载请自行联系原作者

相关文章
|
3月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
120 3
|
21天前
|
存储 算法 安全
基于哈希表的文件共享平台 C++ 算法实现与分析
在数字化时代,文件共享平台不可或缺。本文探讨哈希表在文件共享中的应用,包括原理、优势及C++实现。哈希表通过键值对快速访问文件元数据(如文件名、大小、位置等),查找时间复杂度为O(1),显著提升查找速度和用户体验。代码示例展示了文件上传和搜索功能,实际应用中需解决哈希冲突、动态扩容和线程安全等问题,以优化性能。
|
30天前
|
缓存 算法 搜索推荐
Java中的算法优化与复杂度分析
在Java开发中,理解和优化算法的时间复杂度和空间复杂度是提升程序性能的关键。通过合理选择数据结构、避免重复计算、应用分治法等策略,可以显著提高算法效率。在实际开发中,应该根据具体需求和场景,选择合适的优化方法,从而编写出高效、可靠的代码。
37 6
|
2月前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
84 1
|
3月前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
3月前
|
算法
PID算法原理分析
【10月更文挑战第12天】PID控制方法从提出至今已有百余年历史,其由于结构简单、易于实现、鲁棒性好、可靠性高等特点,在机电、冶金、机械、化工等行业中应用广泛。
|
4月前
|
算法 搜索推荐 开发者
别再让复杂度拖你后腿!Python 算法设计与分析实战,教你如何精准评估与优化!
在 Python 编程中,算法的性能至关重要。本文将带您深入了解算法复杂度的概念,包括时间复杂度和空间复杂度。通过具体的例子,如冒泡排序算法 (`O(n^2)` 时间复杂度,`O(1)` 空间复杂度),我们将展示如何评估算法的性能。同时,我们还会介绍如何优化算法,例如使用 Python 的内置函数 `max` 来提高查找最大值的效率,或利用哈希表将查找时间从 `O(n)` 降至 `O(1)`。此外,还将介绍使用 `timeit` 模块等工具来评估算法性能的方法。通过不断实践,您将能更高效地优化 Python 程序。
83 4
|
4月前
|
算法 程序员 Python
程序员必看!Python复杂度分析全攻略,让你的算法设计既快又省内存!
在编程领域,Python以简洁的语法和强大的库支持成为众多程序员的首选语言。然而,性能优化仍是挑战。本文将带你深入了解Python算法的复杂度分析,从时间与空间复杂度入手,分享四大最佳实践:选择合适算法、优化实现、利用Python特性减少空间消耗及定期评估调整,助你写出高效且节省内存的代码,轻松应对各种编程挑战。
88 1
|
3月前
|
算法
PID算法原理分析及优化
【10月更文挑战第6天】PID控制方法从提出至今已有百余年历史,其由于结构简单、易于实现、鲁棒性好、可靠性高等特点,在机电、冶金、机械、化工等行业中应用广泛。
|
3月前
|
算法 安全 Go
Python与Go语言中的哈希算法实现及对比分析
Python与Go语言中的哈希算法实现及对比分析
64 0