一种内存保护的大规模精确字符串搜索算法

简介: 背景精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间

背景

精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间将与“待匹配字符串”数量成正比,进而仍然具有较高的时间复杂度。

本文,通过“抽取定长索引”及“定序比较索引”的方式,实现了一种内存保护的大规模精确串字符串搜索算法。

怎么实现的?

本文提出一种内存保护的大规模精确字符串搜索算法,采用“抽取定长索引”及“定序比较索引”的方式,在保证不出现内存溢出错误的前提下,执行时间较短,搜索性能较高。系统模块设计分为三部分:定长子串抽取、索引树构建、索引定序比较。

   A)定长子串抽取,用于抽取“原始待匹配字符串”为“定长子串”。

将(所有)原始待匹配字符串抽取为多个定长子串,前面的子串均为定长,最后几个子串长度会逐渐减小。例如:原始待匹配字符串为“aliyunlanyan”,最大定长为3,最小定长为2,最大索引串数量为3,原始待匹配字符串抽取为3个定长子串“ali”、“yun”、“lan”。

   B)索引树构建,利用已划分的“定长子串”集合构建内存可控的索引树。

根据定序字符串所含字符的先后顺序构造索引树,字符转换为树节点间的跳转边。但是需要同步记录树节点在“待匹配字符串”中的索引。索引树本质上是一个AC(Aho-Corasick automation)自动机,构建完正确跳转,还需要构建失败跳转。

由于限定了所有“定长子串”的长度,因此限定了索引树的最大深度,进而控制了索引树的内存空间。

索引树实例参照:

   C)全量索引比较。使用“索引树”扫描“模式串”得到匹配成功的“待匹配字符串”集合。

使用“索引树”扫描“模式字符串”,得到“候选待匹配字符串successMatchString”及其“待匹配字符串索引集合indexSet”,直到“模式串”没有剩余字符则结束,此时符合要求的“候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”。

(1)创建存储“候选待匹配字符串匹配进度的映射successMatchStringMap”,键为“待匹配字符串successMatchString”,值为“待匹配字符串索引集合indexSet”。

(2)“模式字符串”逐个字符遍历“索引树”,currentAcState表示当前当前字符对应的AC状态机的状态。则判断此状态currentAcState是否存在“候选待匹配字符串successMatchString”。

如果存在,则将此状态对应的能够匹配的“候选待匹配字符串successMatchString”添加到“候选待匹配字符串匹配进度的映射successMatchStringMap”,并同步更新“待匹配字符串索引集合indexSet”。如果此时“待匹配字符串索引集合indexSet”的长度等于“候选待匹配字符串successMatchString”的定长子串的总数,则 “候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”,如果采用子串函数进一步验证成功,则表示匹配成功,返回结果true。

(3)重复步骤(2),直到“模式字符串”遍历结束,则表示匹配失败,返回结果false。

    内存保护的大规模精确字符串搜索算法参照:

               

                                                                                                                                                                     

有哪些实际价值?

1)内存利用率高:采用原始待匹配字符串划分得到的“定长子串”构建内存利用率较高的索引树,避免了模式匹配程序出现内存溢出错误。

2)匹配性能好:采用“定序比较模式子串”方式,具有不强依赖于待匹配字符串集合数量的特性,具有较好的匹配性能。

相关文章
|
13天前
|
算法 Java
并发垃圾回收算法对于大规模服务器应用的优势
并发垃圾回收算法对于大规模服务器应用的优势
|
18天前
|
存储 监控 NoSQL
Redis处理大量数据主要依赖于其内存存储结构、高效的数据结构和算法,以及一系列的优化策略
【5月更文挑战第15天】Redis处理大量数据依赖内存存储、高效数据结构和优化策略。选择合适的数据结构、利用批量操作减少网络开销、控制批量大小、使用Redis Cluster进行分布式存储、优化内存使用及监控调优是关键。通过这些方法,Redis能有效处理大量数据并保持高性能。
38 0
|
3天前
|
存储 算法 Java
JVM性能调优:内存模型及垃圾收集算法
JVM性能调优:内存模型及垃圾收集算法
10 0
字符串和内存函数(下)
字符串和内存函数(下)
|
5天前
|
C++
字符串和内存函数(上)
字符串和内存函数(上)
|
7天前
|
算法
KPM算法求字符串的最小周期证明
公式 `ans = n - LPS[n-1]` 描述了最小周期,其中 `n` 是子串长度,`LPS[n-1]` 是前缀函数值。证明分为特殊情况和一般情况:对于完整周期字符串,`LPS[n-1] = 3*T`,故 `ans = T`;对于非完整周期,通过分析不同长度的 `[末部分]` 和 `[前部分]`,展示 `ans` 始终等于周期 `T` 或由 `[e][b]` 构成的最小周期,从而证明公式正确。
|
8天前
|
索引
浅谈两个重要的搜索算法
【5月更文挑战第15天】线性搜索从数组一端按顺序遍历,直到找到目标元素,平均和最坏情况的时间复杂度均为O(N)。二分查找适用于排序数组,通过比较中间元素快速定位目标,最佳、平均和最坏情况的时间复杂度都是O(logN)。
16 6
|
10天前
|
C语言
c语言:字符串和内存函数介绍-2
c语言:字符串和内存函数介绍
14 0
|
10天前
|
C语言
c语言:字符串和内存函数介绍-1
c语言:字符串和内存函数介绍
18 0
|
11天前
|
算法
【软件设计师】常见的算法设计方法——穷举搜索法
【软件设计师】常见的算法设计方法——穷举搜索法