从一道算法题说去2

简介: 今天的算法题是关于 字符串的最小编辑距离问题求解。 1. 什么是字符串编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。


今天的算法题是关于 字符串的最小编辑距离问题求解。

1. 什么是字符串编辑距离

编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,添加一个字符,删除一个字符。

例如将kitten一字转成sitting:

a. sitten (k→s) 

b. sittin (e→i) 

c. sitting (→g) 

俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。


2. 字符串的最小编辑距离即要求 给定两个字符串A和B,使得用最小的编辑距离达到 A=B


3. 求解两个字符串A和B的最小编辑距离,利用动态规划的思想。

a. 假设状态dp[i][j] 表示的是字符串A的子串 A[0-i]和字符串B的子串B[0-j]的最小编辑距离,那么有如下几个结论

i = 0,j = 0,dp[0][0] = 0,两个空串最小编辑距离为0

i = 0,j > 0,dp[i][j] = j,字符串A的子串为空则编辑距离为字符串B的子串长度 j

i > 0,j = 0,dp[i][j] = i,字符串B的子串为空则编辑距离为字符串A的子串长度 i

i > 0,j > 0,A[i] = B[j],dp[i][j] = dp[i-1][j-1],字符串A的子串最后一个字符等于字符串B子串的最后一个字符

i > 0,j > 0,A[I] != B[j],dp[i][j] = min{dp[i-1][j] + 1, dp[i][j-1] + 1, dp[i-1][j-1] + 1},dp[i-1][j] + 1表示的是字符串A的子串添加一个字符,dp[i][j-1]表示的是字符串B的子串添加一个字符,dp[i-1][j-1] + 1表示字符串A的子串替换一个字符。

b. 大家会发现这个思路和求LCS的思路几乎是一样的。


4. 代码

#include <cstdio>
#include <string>
#include <iostream>
#include <algorithm>
using namespace std;

#define MAX 50
#define INT_MAX 0x7ffffff

// get min edit dis
int GetEditDis(const string& strOne, const string& strTwo) {
	int dp[MAX][MAX];
	int strOneLength = strOne.length();
	int strTwoLength = strTwo.length();
	
	for (int i = 0; i <= strOneLength; ++i) {
		dp[i][0] = i; // strTwo subStr is empty
	}
	for (int j = 0; j <= strTwoLength; ++j) {
		dp[0][j] = j; // strOne subStr is empty
	}

	for (int i = 0; i < strOneLength; ++i) {
		for (int j = 0; j < strTwoLength; ++j) {
			int strOneAdd, strTwoAdd, rep;
			strOneAdd = dp[i][j+1] + 1; // strOne add char
			strTwoAdd = dp[i+1][j] + 1; // strTwo add char
			strOne[i] == strTwo[j] ? rep = 0 : rep = 1; 
			dp[i+1][j+1] = min(min(strOneAdd, strTwoAdd), dp[i][j]+rep);
		}
	}
	return dp[strOneLength][strTwoLength];
}

int main(int argc, char **argv) {
	string strOne = "kitten";
	string strTwo = "sitting";
	
	cout << GetEditDis(strOne, strTwo) << endl; // cout 3

	return 0;
}


目录
相关文章
|
2月前
|
IDE Java 开发工具
IntelliJ IDEA 使用技巧与插件推荐
IntelliJ IDEA 是一个功能强大、扩展性丰富的开发工具。通过掌握常用的快捷键和技巧,结合合适的插件,可以大幅提升你的开发效率。
114 1
|
6月前
|
人工智能 自然语言处理 搜索推荐
阿里云携手叫叫,共创儿童学习AI新体验
阿里云携手叫叫,共创儿童学习AI新体验
|
10月前
|
安全 网络安全
NIST
NIST
308 5
|
前端开发 数据库
ruoyi-nbcio增加flowable流程待办消息的提醒,并提供右上角的红字数字提醒(一)
ruoyi-nbcio增加flowable流程待办消息的提醒,并提供右上角的红字数字提醒(一)
324 0
|
10月前
|
机器学习/深度学习 人工智能 算法
从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制
【10月更文挑战第22天】视觉强化学习(VRL)通过智能体与环境的交互学习最优策略,但可塑性损失是其关键挑战。近期一篇论文《Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages》通过实证研究,揭示了数据增强、评论家可塑性损失及早期干预在维持智能体可塑性方面的作用,并提出了一种动态调整重放率的方法,为解决高重放率困境提供了新思路。
173 2
|
11月前
|
监控 Oracle 关系型数据库
Oracle数据库性能优化
【10月更文挑战第16天】Oracle数据库性能优化是
225 1
|
11月前
|
运维 监控 安全
高效运维管理:提升系统稳定性的策略与实践
【10月更文挑战第13天】 本文探讨了高效运维管理的关键策略和实践,旨在帮助运维团队提升系统的稳定性。通过分析常见问题,提出具体的解决方案,包括监控与告警、自动化工具的应用、故障排查与恢复、性能优化以及安全防护等方面。通过这些策略和实践,可以帮助企业构建一个稳定、可靠且高效的IT系统。
368 1
|
11月前
|
并行计算 算法 搜索推荐
探索Go语言的高并发编程与性能优化
【10月更文挑战第10天】探索Go语言的高并发编程与性能优化
|
人工智能 运维 安全
阿里云跻身央国企上云服务商“全量领导者”
阿里云跻身央国企上云服务商“全量领导者”
684 10
|
数据采集 JSON NoSQL
JSON转Markdown:我把阅读数据从MongoDB中导出转换为.md了
JSON转Markdown:我把阅读数据从MongoDB中导出转换为.md了
1374 0
JSON转Markdown:我把阅读数据从MongoDB中导出转换为.md了