一种内存保护的大规模精确字符串搜索算法

简介: 背景精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间

背景

精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间将与“待匹配字符串”数量成正比,进而仍然具有较高的时间复杂度。

本文,通过“抽取定长索引”及“定序比较索引”的方式,实现了一种内存保护的大规模精确串字符串搜索算法。

怎么实现的?

本文提出一种内存保护的大规模精确字符串搜索算法,采用“抽取定长索引”及“定序比较索引”的方式,在保证不出现内存溢出错误的前提下,执行时间较短,搜索性能较高。系统模块设计分为三部分:定长子串抽取、索引树构建、索引定序比较。

   A)定长子串抽取,用于抽取“原始待匹配字符串”为“定长子串”。

将(所有)原始待匹配字符串抽取为多个定长子串,前面的子串均为定长,最后几个子串长度会逐渐减小。例如:原始待匹配字符串为“aliyunlanyan”,最大定长为3,最小定长为2,最大索引串数量为3,原始待匹配字符串抽取为3个定长子串“ali”、“yun”、“lan”。

   B)索引树构建,利用已划分的“定长子串”集合构建内存可控的索引树。

根据定序字符串所含字符的先后顺序构造索引树,字符转换为树节点间的跳转边。但是需要同步记录树节点在“待匹配字符串”中的索引。索引树本质上是一个AC(Aho-Corasick automation)自动机,构建完正确跳转,还需要构建失败跳转。

由于限定了所有“定长子串”的长度,因此限定了索引树的最大深度,进而控制了索引树的内存空间。

索引树实例参照:

   C)全量索引比较。使用“索引树”扫描“模式串”得到匹配成功的“待匹配字符串”集合。

使用“索引树”扫描“模式字符串”,得到“候选待匹配字符串successMatchString”及其“待匹配字符串索引集合indexSet”,直到“模式串”没有剩余字符则结束,此时符合要求的“候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”。

(1)创建存储“候选待匹配字符串匹配进度的映射successMatchStringMap”,键为“待匹配字符串successMatchString”,值为“待匹配字符串索引集合indexSet”。

(2)“模式字符串”逐个字符遍历“索引树”,currentAcState表示当前当前字符对应的AC状态机的状态。则判断此状态currentAcState是否存在“候选待匹配字符串successMatchString”。

如果存在,则将此状态对应的能够匹配的“候选待匹配字符串successMatchString”添加到“候选待匹配字符串匹配进度的映射successMatchStringMap”,并同步更新“待匹配字符串索引集合indexSet”。如果此时“待匹配字符串索引集合indexSet”的长度等于“候选待匹配字符串successMatchString”的定长子串的总数,则 “候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”,如果采用子串函数进一步验证成功,则表示匹配成功,返回结果true。

(3)重复步骤(2),直到“模式字符串”遍历结束,则表示匹配失败,返回结果false。

    内存保护的大规模精确字符串搜索算法参照:

               

                                                                                                                                                                     

有哪些实际价值?

1)内存利用率高:采用原始待匹配字符串划分得到的“定长子串”构建内存利用率较高的索引树,避免了模式匹配程序出现内存溢出错误。

2)匹配性能好:采用“定序比较模式子串”方式,具有不强依赖于待匹配字符串集合数量的特性,具有较好的匹配性能。

相关文章
|
3月前
|
算法
【算法】二分算法——搜索插入位置
【算法】二分算法——搜索插入位置
|
3月前
|
算法
【算法】滑动窗口——找到字符串中所有字母异位词
【算法】滑动窗口——找到字符串中所有字母异位词
|
8天前
|
缓存 算法 Java
本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制
在现代软件开发中,性能优化至关重要。本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制。通过调整垃圾回收器参数、优化堆大小与布局、使用对象池和缓存技术,开发者可显著提升应用性能和稳定性。
30 6
|
13天前
|
算法
虚拟内存的页面置换算法有哪些?
【10月更文挑战第25天】不同的页面置换算法各有优缺点,在实际应用中,操作系统会根据不同的应用场景和系统需求选择合适的页面置换算法,或者对算法进行适当的改进和优化,以平衡系统的性能、开销和资源利用率等因素。
33 5
|
12天前
|
算法 搜索推荐 数据库
二分搜索:高效的查找算法
【10月更文挑战第29天】通过对二分搜索的深入研究和应用,我们可以不断挖掘其潜力,为各种复杂问题提供高效的解决方案。相信在未来的科技发展中,二分搜索将继续发挥着重要的作用,为我们的生活和工作带来更多的便利和创新。
20 1
|
1月前
|
算法
两个字符串匹配出最长公共子序列算法
本文介绍了最长公共子序列(LCS)问题的算法实现,通过动态规划方法求解两个字符串的最长公共子序列,并提供了具体的编程实现细节和示例。
74 1
两个字符串匹配出最长公共子序列算法
|
1月前
|
算法 决策智能
基于禁忌搜索算法的VRP问题求解matlab仿真,带GUI界面,可设置参数
该程序基于禁忌搜索算法求解车辆路径问题(VRP),使用MATLAB2022a版本实现,并带有GUI界面。用户可通过界面设置参数并查看结果。禁忌搜索算法通过迭代改进当前解,并利用记忆机制避免陷入局部最优。程序包含初始化、定义邻域结构、设置禁忌列表等步骤,最终输出最优路径和相关数据图表。
|
1月前
|
数据采集 算法 5G
基于稀疏CoSaMP算法的大规模MIMO信道估计matlab性能仿真,对比LS,OMP,MOMP,CoSaMP
该研究采用MATLAB 2022a仿真大规模MIMO系统中的信道估计,利用压缩感知技术克服传统方法的高开销问题。在稀疏信号恢复理论基础上,通过CoSaMP等算法实现高效信道估计。核心程序对比了LS、OMP、NOMP及CoSaMP等多种算法的均方误差(MSE),验证其在不同信噪比下的性能。仿真结果显示,稀疏CoSaMP表现优异。
60 2
|
2月前
|
大数据 UED 开发者
实战演练:利用Python的Trie树优化搜索算法,性能飙升不是梦!
在数据密集型应用中,高效搜索算法至关重要。Trie树(前缀树/字典树)通过优化字符串处理和搜索效率成为理想选择。本文通过Python实战演示Trie树构建与应用,显著提升搜索性能。Trie树利用公共前缀减少查询时间,支持快速插入、删除和搜索。以下为简单示例代码,展示如何构建及使用Trie树进行搜索与前缀匹配,适用于自动补全、拼写检查等场景,助力提升应用性能与用户体验。
54 2
|
1月前
|
存储 算法 C语言
MacOS环境-手写操作系统-17-内存管理算法实现
MacOS环境-手写操作系统-17-内存管理算法实现
35 0