C++ SUNDY算法(BM算法的改进)

简介:

字符串查找算法中,最著名的两个是KMP算法Knuth-Morris-Pratt)和BM算法(Boyer-Moore)。两个算法在最坏情

况下均具有线性的查找时间。BM算法往往比KMP算法快上3-5倍。但是BM算法还不是最快的算法,这里介绍一种比BM算法更快一些的查找算法。

例如我们要在"substringsearchingalgorithm"查找"search"

第一步,把子串与文本左边对齐:

s u b s t r i n g s e a r c h i n g a l g o r i t h m

s e a r c h

结果在第二个字符处发现不匹配,于是要把子串往后移动。

但是该移动多少呢?

最简单的做法是移动一个字符位置;

KMP是利用已经匹配部分的信息来移动;

BM算法是做反向比较,并根据已经匹配的部分来确定移动量。

而SUNDY算法是看紧跟在当前子串之后的那个字符(第一个字符串中的'i')。


显然,不管移动多少,这个字符是肯定要参加下一步的比较的,也就是说,如果下一步匹配到了,这个字符必须在子串内。

所以,可以移动子串,使子串中的最右边的这个字符与它对齐。

现在子串'search'中并不存在'i',则说明可

以直接跳过一大片,从'i'之后的那个字符开始作下一步的比较,如下:

s u b s t r i n g s e a r c h i n g a l g o r i t h m

                s e a r c h

比较的结果,第一个字符就不匹配,再看子串后面的那个字符,是'r',

它在子串中出现在倒数第三位,于是把子串向后移动三位,使两个'r'对齐,如下:

s u b s t r i n g  s e a r c h i n g a l g o r i t h m

                         s e a r c h

这次匹配成功了!回顾整个过程,我们仅仅移动了两次子串就找到了匹配位置,

可以证明,用这个算法,每一步的移动量都比BM算法要大,所以肯定比BM算法更快。


下面是实现代码:

#include <iostream>
#include <string>
using namespace std;

void SUNDAY(char *text, char *patt)
{
	register size_t temp[256];
	size_t *shift = temp;
	size_t i, patt_size = strlen(patt), text_size = strlen(text);
	cout << "size : " << patt_size << endl;
	for( i=0; i < 256; i++ )
	{
		*(shift+i) = patt_size+1;
	}
	for( i=0; i < patt_size; i++ )
	{
		*(shift + (unsigned char)(*(patt+i))) = patt_size-i;
	}
	//shift['s']=6 步,shitf['e']=5 以此类推
	size_t limit = text_size - patt_size+1;
	for(i=0; i < limit; i += shift[ text[i+patt_size] ])
	{
		if( text[i] == *patt )
		{
			char *match_text = text + i + 1;
			size_t match_size = 1;
			do
			{
				// 输出所有匹配的位置
				if( match_size == patt_size )
				{
					cout << "the NO. is " << i << endl;
				}
			}while((*match_text++) == patt[match_size++]);
		}
	}
	cout << endl;
}
int main(void)
{
	char *text = new char[100];
	text = "substring searching algorithm search";
	char *patt = new char[10];
	patt = "search";
	SUNDAY(text, patt);
	return 0;
}



目录
相关文章
|
存储 监控 算法
基于 C++ 哈希表算法实现局域网监控电脑屏幕的数据加速机制研究
企业网络安全与办公管理需求日益复杂的学术语境下,局域网监控电脑屏幕作为保障信息安全、规范员工操作的重要手段,已然成为网络安全领域的关键研究对象。其作用类似网络空间中的 “电子眼”,实时捕获每台电脑屏幕上的操作动态。然而,面对海量监控数据,实现高效数据存储与快速检索,已成为提升监控系统性能的核心挑战。本文聚焦于 C++ 语言中的哈希表算法,深入探究其如何成为局域网监控电脑屏幕数据处理的 “加速引擎”,并通过详尽的代码示例,展现其强大功能与应用价值。
244 2
|
存储 算法 C++
Windows共享文件:探秘C++实现的B树索引算法奇境
在数字化时代,Windows共享文件的高效管理至关重要。B树算法以其自平衡多路搜索特性,在文件索引与存储优化中表现出色。本文探讨B树在Windows共享文件中的应用,通过C++实现具体代码,展示其构建文件索引、优化数据存储的能力,提升文件检索效率。B树通过减少磁盘I/O操作,确保查询高效,为企业和个人提供流畅的文件共享体验。
|
12月前
|
监控 算法 数据处理
基于 C++ 的 KD 树算法在监控局域网屏幕中的理论剖析与工程实践研究
本文探讨了KD树在局域网屏幕监控中的应用,通过C++实现其构建与查询功能,显著提升多维数据处理效率。KD树作为一种二叉空间划分结构,适用于屏幕图像特征匹配、异常画面检测及数据压缩传输优化等场景。相比传统方法,基于KD树的方案检索效率提升2-3个数量级,但高维数据退化和动态更新等问题仍需进一步研究。未来可通过融合其他数据结构、引入深度学习及开发增量式更新算法等方式优化性能。
300 17
|
11月前
|
存储 机器学习/深度学习 算法
基于 C++ 的局域网访问控制列表(ACL)实现及局域网限制上网软件算法研究
本文探讨局域网限制上网软件中访问控制列表(ACL)的应用,分析其通过规则匹配管理网络资源访问的核心机制。基于C++实现ACL算法原型,展示其灵活性与安全性。文中强调ACL在企业与教育场景下的重要作用,并提出性能优化及结合机器学习等未来研究方向。
286 4
|
10月前
|
存储 监控 算法
基于跳表数据结构的企业局域网监控异常连接实时检测 C++ 算法研究
跳表(Skip List)是一种基于概率的数据结构,适用于企业局域网监控中海量连接记录的高效处理。其通过多层索引机制实现快速查找、插入和删除操作,时间复杂度为 $O(\log n)$,优于链表和平衡树。跳表在异常连接识别、黑名单管理和历史记录溯源等场景中表现出色,具备实现简单、支持范围查询等优势,是企业网络监控中动态数据管理的理想选择。
267 0
|
11月前
|
机器学习/深度学习 存储 算法
基于 C++ 布隆过滤器算法的局域网上网行为控制:URL 访问过滤的高效实现研究
本文探讨了一种基于布隆过滤器的局域网上网行为控制方法,旨在解决传统黑白名单机制在处理海量URL数据时存储与查询效率低的问题。通过C++实现URL访问过滤功能,实验表明该方法可将内存占用降至传统方案的八分之一,查询速度提升约40%,假阳性率可控。研究为优化企业网络管理提供了新思路,并提出结合机器学习、改进哈希函数及分布式协同等未来优化方向。
325 0
|
存储 监控 算法
基于 C++ 哈希表算法的局域网如何监控电脑技术解析
当代数字化办公与生活环境中,局域网的广泛应用极大地提升了信息交互的效率与便捷性。然而,出于网络安全管理、资源合理分配以及合规性要求等多方面的考量,对局域网内计算机进行有效监控成为一项至关重要的任务。实现局域网内计算机监控,涉及多种数据结构与算法的运用。本文聚焦于 C++ 编程语言中的哈希表算法,深入探讨其在局域网计算机监控场景中的应用,并通过详尽的代码示例进行阐释。
276 4
|
存储 算法 安全
企业员工数据泄露防范策略:基于 C++ 语言的布隆过滤器算法剖析[如何防止员工泄密]
企业运营过程中,防范员工泄密是信息安全领域的核心议题。员工泄密可能致使企业核心数据、商业机密等关键资产的流失,进而给企业造成严重损失。为应对这一挑战,借助恰当的数据结构与算法成为强化信息防护的有效路径。本文专注于 C++ 语言中的布隆过滤器算法,深入探究其在防范员工泄密场景中的应用。
299 8
|
编译器 C++ 开发者
【C++篇】深度解析类与对象(下)
在上一篇博客中,我们学习了C++的基础类与对象概念,包括类的定义、对象的使用和构造函数的作用。在这一篇,我们将深入探讨C++类的一些重要特性,如构造函数的高级用法、类型转换、static成员、友元、内部类、匿名对象,以及对象拷贝优化等。这些内容可以帮助你更好地理解和应用面向对象编程的核心理念,提升代码的健壮性、灵活性和可维护性。
|
编译器 C++ 容器
【c++11】c++11新特性(上)(列表初始化、右值引用和移动语义、类的新默认成员函数、lambda表达式)
C++11为C++带来了革命性变化,引入了列表初始化、右值引用、移动语义、类的新默认成员函数和lambda表达式等特性。列表初始化统一了对象初始化方式,initializer_list简化了容器多元素初始化;右值引用和移动语义优化了资源管理,减少拷贝开销;类新增移动构造和移动赋值函数提升性能;lambda表达式提供匿名函数对象,增强代码简洁性和灵活性。这些特性共同推动了现代C++编程的发展,提升了开发效率与程序性能。
508 12

热门文章

最新文章