一种内存保护的大规模精确字符串搜索算法

简介: 背景精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间

背景

精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间将与“待匹配字符串”数量成正比,进而仍然具有较高的时间复杂度。

本文,通过“抽取定长索引”及“定序比较索引”的方式,实现了一种内存保护的大规模精确串字符串搜索算法。

怎么实现的?

本文提出一种内存保护的大规模精确字符串搜索算法,采用“抽取定长索引”及“定序比较索引”的方式,在保证不出现内存溢出错误的前提下,执行时间较短,搜索性能较高。系统模块设计分为三部分:定长子串抽取、索引树构建、索引定序比较。

   A)定长子串抽取,用于抽取“原始待匹配字符串”为“定长子串”。

将(所有)原始待匹配字符串抽取为多个定长子串,前面的子串均为定长,最后几个子串长度会逐渐减小。例如:原始待匹配字符串为“aliyunlanyan”,最大定长为3,最小定长为2,最大索引串数量为3,原始待匹配字符串抽取为3个定长子串“ali”、“yun”、“lan”。

   B)索引树构建,利用已划分的“定长子串”集合构建内存可控的索引树。

根据定序字符串所含字符的先后顺序构造索引树,字符转换为树节点间的跳转边。但是需要同步记录树节点在“待匹配字符串”中的索引。索引树本质上是一个AC(Aho-Corasick automation)自动机,构建完正确跳转,还需要构建失败跳转。

由于限定了所有“定长子串”的长度,因此限定了索引树的最大深度,进而控制了索引树的内存空间。

索引树实例参照:

   C)全量索引比较。使用“索引树”扫描“模式串”得到匹配成功的“待匹配字符串”集合。

使用“索引树”扫描“模式字符串”,得到“候选待匹配字符串successMatchString”及其“待匹配字符串索引集合indexSet”,直到“模式串”没有剩余字符则结束,此时符合要求的“候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”。

(1)创建存储“候选待匹配字符串匹配进度的映射successMatchStringMap”,键为“待匹配字符串successMatchString”,值为“待匹配字符串索引集合indexSet”。

(2)“模式字符串”逐个字符遍历“索引树”,currentAcState表示当前当前字符对应的AC状态机的状态。则判断此状态currentAcState是否存在“候选待匹配字符串successMatchString”。

如果存在,则将此状态对应的能够匹配的“候选待匹配字符串successMatchString”添加到“候选待匹配字符串匹配进度的映射successMatchStringMap”,并同步更新“待匹配字符串索引集合indexSet”。如果此时“待匹配字符串索引集合indexSet”的长度等于“候选待匹配字符串successMatchString”的定长子串的总数,则 “候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”,如果采用子串函数进一步验证成功,则表示匹配成功,返回结果true。

(3)重复步骤(2),直到“模式字符串”遍历结束,则表示匹配失败,返回结果false。

    内存保护的大规模精确字符串搜索算法参照:

               

                                                                                                                                                                     

有哪些实际价值?

1)内存利用率高:采用原始待匹配字符串划分得到的“定长子串”构建内存利用率较高的索引树,避免了模式匹配程序出现内存溢出错误。

2)匹配性能好:采用“定序比较模式子串”方式,具有不强依赖于待匹配字符串集合数量的特性,具有较好的匹配性能。

相关文章
|
11天前
|
自然语言处理 算法 搜索推荐
字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析
在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。
181 1
|
13天前
|
数据采集 算法 JavaScript
揭开JavaScript字符串搜索的秘密:indexOf、includes与KMP算法
JavaScript字符串搜索涵盖`indexOf`、`includes`及KMP算法。`indexOf`返回子字符串位置,`includes`检查是否包含子字符串。KMP是高效的搜索算法,尤其适合长模式匹配。示例展示了如何在数据采集(如网页爬虫)中使用这些方法,结合代理IP进行安全搜索。代码示例中,搜索百度新闻结果并检测是否含有特定字符串。学习这些技术能提升编程效率和性能。
揭开JavaScript字符串搜索的秘密:indexOf、includes与KMP算法
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战
Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现SSA智能麻雀搜索算法优化支持向量机回归模型(SVR算法)项目实战
Python实现SSA智能麻雀搜索算法优化支持向量机回归模型(SVR算法)项目实战
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现SSA智能麻雀搜索算法优化支持向量机分类模型(SVC算法)项目实战
Python实现SSA智能麻雀搜索算法优化支持向量机分类模型(SVC算法)项目实战
|
5天前
|
机器学习/深度学习 人工智能 分布式计算
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
机器学习中的超参数调优是提升模型性能的关键步骤,包括网格搜索、随机搜索、贝叶斯优化和遗传算法等方法。网格搜索通过穷举所有可能的超参数组合找到最优,但计算成本高;随机搜索则在预设范围内随机采样,降低计算成本;贝叶斯优化使用代理模型智能选择超参数,效率高且适应性强;遗传算法模拟生物进化,全局搜索能力强。此外,还有多目标优化、异步并行优化等高级技术,以及Hyperopt、Optuna等优化库来提升调优效率。实践中,应结合模型类型、数据规模和计算资源选择合适的调优策略。
10 0
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
|
10天前
|
算法
基于Dijkstra算法的最优行驶路线搜索matlab仿真,以实际城市复杂路线为例进行测试
使用MATLAB2022a实现的Dijkstra算法在城市地图上搜索最优行驶路线的仿真。用户通过鼠标点击设定起点和终点,算法规划路径并显示长度。测试显示,尽管在某些复杂情况下计算路径可能与实际有偏差,但多数场景下Dijkstra算法能找到接近最短路径。核心代码包括图的显示、用户交互及Dijkstra算法实现。算法基于图论,不断更新未访问节点的最短路径。测试结果证明其在简单路线及多数复杂城市路况下表现良好,但在交通拥堵等特殊情况下需结合其他数据提升准确性。
|
5天前
|
机器学习/深度学习 数据采集 自然语言处理
Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战
Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战
|
5天前
|
机器学习/深度学习 数据采集 算法
Python实现人工神经网络回归模型(MLPRegressor算法)并基于网格搜索(GridSearchCV)进行优化项目实战
Python实现人工神经网络回归模型(MLPRegressor算法)并基于网格搜索(GridSearchCV)进行优化项目实战
|
5天前
|
算法 Java 开发者
Java面试题:Java内存探秘与多线程并发实战,Java内存模型及分区:理解Java堆、栈、方法区等内存区域的作用,垃圾收集机制:掌握常见的垃圾收集算法及其优缺点
Java面试题:Java内存探秘与多线程并发实战,Java内存模型及分区:理解Java堆、栈、方法区等内存区域的作用,垃圾收集机制:掌握常见的垃圾收集算法及其优缺点
8 0