计算字符串相似度的简易算法

简介:

计算字符串相似度的简易算法

算法设计背景:

最近设计知识管理系统的资源导入功能,为了尽量的做到组件化,方便扩展,方便其他模块使用。简化组件提供的和需要的接口,设计并实现了基于 Mapping 机制的导入框架。其中有一功能用到了计算两个字符串相似度的算法,简单设计如下以便参考:

设计思想:

   把两个字符串变成相同的基本操作定义如下:

1.     修改一个字符(如把 a 变成 b

2.     增加一个字符 ( abed 变成 abedd)

3.     删除一个字符(如 jackbllog 变成 jackblog

针对于 jackbllogjackblog 只需要删除一个或增加一个 l 就可以把两个字符串变为相同。把这种操作需要的次数定义为两个字符串的距离L, 则相似度定义为 1/(L+1) 即距离加一的倒数。那么jackbllogjackblog的相似度为 1/1+1=1/2=0.5 也就是所两个字符串的相似度是0.5,说明两个字符串已经很接近啦。

任意两个字符串的距离都是有限的,都不会超过他们的长度之和,算法设计中我们并不在乎通过一系列的修改后,得到的两个相同字符串是什么样子。所以每次只需一步操作,并递归的进行下一计算。JAVA 的实现如下:

 1 /**
 2 * 
 3 */

 4 package  org.blogjava.arithmetic;
 5
 6 import  java.util.HashMap;
 7 import  java.util.Map;
 8
 9 /**
10 * @author jack.wang
11 * 
12 */

13 public   class  StringDistance  {
14
15    public static final Map<String, String> DISTANCE_CACHE = new HashMap<String, String>();
16
17    private static int caculateStringDistance(byte[] firstStr, int firstBegin,
18            int firstEnd, byte[] secondStr, int secondBegin, int secondEnd) {
19        String key = makeKey(firstStr, firstBegin, secondStr, secondBegin);
20        if (DISTANCE_CACHE.get(key) != null{
21            return Integer.parseInt(DISTANCE_CACHE.get(key));
22        }
 else {
23            if (firstBegin >= firstEnd) {
24                if (secondBegin >= secondEnd) {
25                    return 0;
26                }
 else {
27                    return secondEnd - secondBegin + 1;
28                }

29            }

30            if (secondBegin >= secondEnd) {
31                if (firstBegin >= firstEnd) {
32                    return 0;
33                }
 else {
34                    return firstEnd - firstBegin + 1;
35                }

36            }

37            if (firstStr[firstBegin] == secondStr[secondBegin]) {
38                return caculateStringDistance(firstStr, firstBegin + 1,
39                        firstEnd, secondStr, secondBegin + 1, secondEnd);
40            }
 else {
41                int oneValue = caculateStringDistance(firstStr, firstBegin + 1,
42                        firstEnd, secondStr, secondBegin + 2, secondEnd);
43                int twoValue = caculateStringDistance(firstStr, firstBegin + 2,
44                        firstEnd, secondStr, secondBegin + 1, secondEnd);
45                int threeValue = caculateStringDistance(firstStr,
46                        firstBegin + 2, firstEnd, secondStr, secondBegin + 2,
47                        secondEnd);
48                DISTANCE_CACHE.put(key, String.valueOf(min(oneValue, twoValue,
49                        threeValue) + 1));
50                return min(oneValue, twoValue, threeValue) + 1;
51            }

52        }

53    }

54
55    public static float similarity(String stringOne, String stringTwo) {
56        return 1f / (caculateStringDistance(stringOne.getBytes(), 0, stringOne
57                .getBytes().length - 1, stringTwo.getBytes(), 0, stringOne
58                .getBytes().length - 1+ 1);
59    }

60
61    private static int min(int oneValue, int twoValue, int threeValue) {
62        return oneValue > twoValue ? twoValue
63                : oneValue > threeValue ? threeValue : oneValue;
64    }

65
66    private static String makeKey(byte[] firstStr, int firstBegin,
67            byte[] secondStr, int secondBegin) {
68        StringBuffer sb = new StringBuffer();
69        return sb.append(firstStr).append(firstBegin).append(secondStr).append(
70                secondBegin).toString();
71    }

72
73    /**
74     * @param args
75     */

76    public static void main(String[] args) {
77        float i = StringDistance.similarity("jacklovvedyou""jacklodveyou");
78        System.out.println(i);
79    }

80}

81
本文转自BlogJava 新浪blog的博客,原文链接:计算字符串相似度的简易算法,如需转载请自行联系原博主。
相关文章
|
3月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
81 0
|
5月前
|
算法
【算法】滑动窗口——找到字符串中所有字母异位词
【算法】滑动窗口——找到字符串中所有字母异位词
|
3月前
|
算法
两个字符串匹配出最长公共子序列算法
本文介绍了最长公共子序列(LCS)问题的算法实现,通过动态规划方法求解两个字符串的最长公共子序列,并提供了具体的编程实现细节和示例。
113 1
两个字符串匹配出最长公共子序列算法
|
3月前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
89 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
|
4月前
|
算法 数据可视化 数据安全/隐私保护
基于LK光流提取算法的图像序列晃动程度计算matlab仿真
该算法基于Lucas-Kanade光流方法,用于计算图像序列的晃动程度。通过计算相邻帧间的光流场并定义晃动程度指标(如RMS),可量化图像晃动。此版本适用于Matlab 2022a,提供详细中文注释与操作视频。完整代码无水印。
|
4月前
|
算法 C++
如何精确计算出一个算法的CPU运行时间?
如何精确计算出一个算法的CPU运行时间?
|
5月前
|
算法 Java
掌握算法学习之字符串经典用法
文章总结了字符串在算法领域的经典用法,特别是通过双指针法来实现字符串的反转操作,并提供了LeetCode上相关题目的Java代码实现,强调了掌握这些技巧对于提升算法思维的重要性。
|
5月前
|
算法 Go Python
[算法]计算斐波拉契数列
[算法]计算斐波拉契数列
|
5月前
|
算法
计算空间物体包围球的两种算法实现
计算空间物体包围球的两种算法实现
63 0
|
3天前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。