一种内存保护的大规模精确字符串搜索算法

简介: 背景精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间

背景

精确字符串搜索算法最简单的是Brute-Force,本次比较失败,则下次仍从模式串起始字符按顺序遍历“待匹配字符串”,但时间复杂度极高。著名的KMP( Knuth-Morris-Pratt )算法是经典的字符串搜索算法,充分利用失败信息,尽量增加下一次匹配索引,以此减少总的匹配次数,针对单条“待匹配字符串”具有较低的时间复杂度。但当需要匹配大量固定的“待匹配字符串”时,采用KMP算法的执行时间将与“待匹配字符串”数量成正比,进而仍然具有较高的时间复杂度。

本文,通过“抽取定长索引”及“定序比较索引”的方式,实现了一种内存保护的大规模精确串字符串搜索算法。

怎么实现的?

本文提出一种内存保护的大规模精确字符串搜索算法,采用“抽取定长索引”及“定序比较索引”的方式,在保证不出现内存溢出错误的前提下,执行时间较短,搜索性能较高。系统模块设计分为三部分:定长子串抽取、索引树构建、索引定序比较。

   A)定长子串抽取,用于抽取“原始待匹配字符串”为“定长子串”。

将(所有)原始待匹配字符串抽取为多个定长子串,前面的子串均为定长,最后几个子串长度会逐渐减小。例如:原始待匹配字符串为“aliyunlanyan”,最大定长为3,最小定长为2,最大索引串数量为3,原始待匹配字符串抽取为3个定长子串“ali”、“yun”、“lan”。

   B)索引树构建,利用已划分的“定长子串”集合构建内存可控的索引树。

根据定序字符串所含字符的先后顺序构造索引树,字符转换为树节点间的跳转边。但是需要同步记录树节点在“待匹配字符串”中的索引。索引树本质上是一个AC(Aho-Corasick automation)自动机,构建完正确跳转,还需要构建失败跳转。

由于限定了所有“定长子串”的长度,因此限定了索引树的最大深度,进而控制了索引树的内存空间。

索引树实例参照:

   C)全量索引比较。使用“索引树”扫描“模式串”得到匹配成功的“待匹配字符串”集合。

使用“索引树”扫描“模式字符串”,得到“候选待匹配字符串successMatchString”及其“待匹配字符串索引集合indexSet”,直到“模式串”没有剩余字符则结束,此时符合要求的“候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”。

(1)创建存储“候选待匹配字符串匹配进度的映射successMatchStringMap”,键为“待匹配字符串successMatchString”,值为“待匹配字符串索引集合indexSet”。

(2)“模式字符串”逐个字符遍历“索引树”,currentAcState表示当前当前字符对应的AC状态机的状态。则判断此状态currentAcState是否存在“候选待匹配字符串successMatchString”。

如果存在,则将此状态对应的能够匹配的“候选待匹配字符串successMatchString”添加到“候选待匹配字符串匹配进度的映射successMatchStringMap”,并同步更新“待匹配字符串索引集合indexSet”。如果此时“待匹配字符串索引集合indexSet”的长度等于“候选待匹配字符串successMatchString”的定长子串的总数,则 “候选待匹配字符串successMatchString”,即为过滤成功的“待匹配字符串”,如果采用子串函数进一步验证成功,则表示匹配成功,返回结果true。

(3)重复步骤(2),直到“模式字符串”遍历结束,则表示匹配失败,返回结果false。

    内存保护的大规模精确字符串搜索算法参照:

               

                                                                                                                                                                     

有哪些实际价值?

1)内存利用率高:采用原始待匹配字符串划分得到的“定长子串”构建内存利用率较高的索引树,避免了模式匹配程序出现内存溢出错误。

2)匹配性能好:采用“定序比较模式子串”方式,具有不强依赖于待匹配字符串集合数量的特性,具有较好的匹配性能。

相关文章
|
3月前
|
机器学习/深度学习 算法 安全
【无人机三维路径规划】基于非支配排序的鲸鱼优化算法NSWOA与多目标螳螂搜索算法MOMSA求解无人机三维路径规划研究(Matlab代码实现)
【无人机三维路径规划】基于非支配排序的鲸鱼优化算法NSWOA与多目标螳螂搜索算法MOMSA求解无人机三维路径规划研究(Matlab代码实现)
191 5
|
3月前
|
机器学习/深度学习 算法 安全
【无人机三维路径规划】多目标螳螂搜索算法MOMSA与非支配排序的鲸鱼优化算法NSWOA求解无人机三维路径规划研究(Matlab代码实现)
【无人机三维路径规划】多目标螳螂搜索算法MOMSA与非支配排序的鲸鱼优化算法NSWOA求解无人机三维路径规划研究(Matlab代码实现)
152 0
|
2月前
|
算法 数据可视化 测试技术
HNSW算法实战:用分层图索引替换k-NN暴力搜索
HNSW是一种高效向量检索算法,通过分层图结构实现近似最近邻的对数时间搜索,显著降低查询延迟。相比暴力搜索,它在保持高召回率的同时,将性能提升数十倍,广泛应用于大规模RAG系统。
140 10
HNSW算法实战:用分层图索引替换k-NN暴力搜索
|
4月前
|
机器学习/深度学习 算法 文件存储
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
神经架构搜索(NAS)正被广泛应用于大模型及语言/视觉模型设计,如LangVision-LoRA-NAS、Jet-Nemotron等。本文回顾NAS核心技术,解析其自动化设计原理,探讨强化学习、进化算法与梯度方法的应用与差异,揭示NAS在大模型时代的潜力与挑战。
887 6
神经架构搜索NAS详解:三种核心算法原理与Python实战代码
|
8月前
|
存储 算法 调度
基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图
本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。
210 24
|
3月前
|
存储 算法 数据可视化
基于禁忌搜索算法的TSP问题最优路径搜索matlab仿真
本程序基于禁忌搜索算法解决旅行商问题(TSP),旨在寻找访问多个城市的最短路径。使用 MATLAB 2022A 编写,包含城市坐标生成、路径优化及结果可视化功能。通过禁忌列表、禁忌长度与藐视准则等机制,提升搜索效率与解的质量,适用于物流配送、路径规划等场景。
|
8月前
|
人工智能 自然语言处理 算法
阿里云 AI 搜索开放平台:从算法到业务——AI 搜索驱动企业智能化升级
本文介绍了阿里云 AI 搜索开放平台的技术的特点及其在各行业的应用。
826 3
|
5月前
|
安全 C语言
C语言中的字符、字符串及内存操作函数详细讲解
通过这些函数的正确使用,可以有效管理字符串和内存操作,它们是C语言编程中不可或缺的工具。
317 15
|
4月前
|
机器学习/深度学习 并行计算 算法
MATLAB实现利用禁忌搜索算法解决基站选址问题
MATLAB实现利用禁忌搜索算法解决基站选址问题
150 0
|
6月前
|
存储 自然语言处理 算法
基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案
本文探讨了在构建对话系统时如何通过一种内存高效算法降低大语言模型(LLM)的Token消耗和运营成本。传统方法中,随着对话深度增加,Token消耗呈指数级增长,导致成本上升。
479 7
基于内存高效算法的 LLM Token 优化:一个有效降低 API 成本的技术方案

热门文章

最新文章