JavaScript实战笔记(三) 文本搜索

简介: JavaScript实战笔记(三) 文本搜索

借鉴 pdf.js 源码,实现文本搜索功能,包含大小写敏感和全字匹配选项,话不多说,直接上码

var CharacterType = {
    SPACE: 0,
    ALPHA_LETTER: 1,
    PUNCT: 2,
    HAN_LETTER: 3,
    KATAKANA_LETTER: 4,
    HIRAGANA_LETTER: 5,
    HALFWIDTH_KATAKANA_LETTER: 6,
    THAI_LETTER: 7
}
function isAlphabeticalScript(charCode) { return charCode < 0x2E80 }
function isAscii(charCode) { return (charCode & 0xFF80) === 0 }
function isAsciiAlpha(charCode) { return charCode >= 0x61 && charCode <= 0x7A || charCode >= 0x41 && charCode <= 0x5A }
function isAsciiDigit(charCode) { return charCode >= 0x30 && charCode <= 0x39 }
function isAsciiSpace(charCode) { return charCode === 0x20 || charCode === 0x09 || charCode === 0x0D || charCode === 0x0A }
function isThai(charCode) { return (charCode & 0xFF80) === 0x0E00 }
function isHan(charCode) { return charCode >= 0x3400 && charCode <= 0x9FFF || charCode >= 0xF900 && charCode <= 0xFAFF }
function isKatakana(charCode) { return charCode >= 0x30A0 && charCode <= 0x30FF }
function isHiragana(charCode) { return charCode >= 0x3040 && charCode <= 0x309F }
function isHalfwidthKatakana(charCode) { return charCode >= 0xFF60 && charCode <= 0xFF9F }
function getCharacterType(charCode) {
    if (isAlphabeticalScript(charCode)) {
        if (isAscii(charCode)) {
            if (isAsciiSpace(charCode)) { return CharacterType.SPACE }
            else if (isAsciiAlpha(charCode) || isAsciiDigit(charCode) || charCode === 0x5F) { return CharacterType.ALPHA_LETTER }
            return CharacterType.PUNCT
        }
        else if (isThai(charCode)) { return CharacterType.THAI_LETTER }
        else if (charCode === 0xA0) { return CharacterType.SPACE }
        return CharacterType.ALPHA_LETTER
    }
    if (isHan(charCode)) { return CharacterType.HAN_LETTER }
    else if (isKatakana(charCode)) { return CharacterType.KATAKANA_LETTER }
    else if (isHiragana(charCode)) { return CharacterType.HIRAGANA_LETTER }
    else if (isHalfwidthKatakana(charCode)) { return CharacterType.HALFWIDTH_KATAKANA_LETTER }
    return CharacterType.ALPHA_LETTER
}
function isEntireWord(content, matchIdx, length) {
    var startIdx = matchIdx
    if (startIdx > 0) {
        var first = content.charCodeAt(startIdx)
        var limit = content.charCodeAt(startIdx - 1)
        if (getCharacterType(first) === getCharacterType(limit)) {
            return false
        }
    }
    var endIdx = matchIdx + length - 1
    if (endIdx < content.length - 1) {
        var last = content.charCodeAt(endIdx)
        var limit = content.charCodeAt(endIdx + 1)
        if (getCharacterType(last) === getCharacterType(limit)) {
            return false
        }
    }
    return true
}
/**
 * 在特定文本中搜索指定内容,返回结果索引
 * @param  {String}   query         要查询的内容
 * @param  {String}   content       待搜索的文本
 * @param  {Boolean}  caseSensitive 大小写敏感
 * @param  {Boolean}  entireWord    全字匹配
 * @return {[Number]}               结果索引
 */
function search(query, content, caseSensitive, entireWord) {
    if (query.length === 0) {
        return
    }
    if (!caseSensitive) {
        query = query.toLowerCase()
        content = content.toLowerCase()
    }
    var matchRst = [], matchIdx = -query.length, queryLen = query.length
    while (true) {
        matchIdx = content.indexOf(query, matchIdx + queryLen)
        if (matchIdx === -1) {
            break
        }
        if (entireWord && !isEntireWord(content, matchIdx, queryLen)) {
            continue
        }
        matchRst.push(matchIdx)
    }
    return matchRst
}


一个用于测试的例子

var content = 'Say Hello To Tomorrow. Say Goodbye To Yesterday.'
var query = 'say'
var result = search(query, content, true, false)
console.log(result) // []
var result = search(query, content, false, false)
console.log(result) // [0, 23]
var query = 'Good'
var result = search(query, content, true, false)
console.log(result) // [27]
var result = search(query, content, true, true)
console.log(result) // []


目录
相关文章
|
8月前
|
人工智能 自然语言处理 JavaScript
通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
通义灵码基于自然语言需求,快速生成完整Vue组件。例如,用Vue 2和JavaScript实现贪吃蛇游戏:包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范,支持响应式数据与事件监听,还能进阶优化(如增加启停按钮、速度随分数提升)。传统需1小时的工作量,使用通义灵码仅10分钟完成,大幅提升开发效率。操作简单:安装插件、输入需求、运行项目即可实现功能。
446 4
 通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
|
4月前
|
JavaScript 前端开发 安全
【逆向】Python 调用 JS 代码实战:使用 pyexecjs 与 Node.js 无缝衔接
本文介绍了如何使用 Python 的轻量级库 `pyexecjs` 调用 JavaScript 代码,并结合 Node.js 实现完整的执行流程。内容涵盖环境搭建、基本使用、常见问题解决方案及爬虫逆向分析中的实战技巧,帮助开发者在 Python 中高效处理 JS 逻辑。
|
6月前
|
JavaScript 前端开发 算法
流量分发代码实战|学会用JS控制用户访问路径
流量分发工具(Traffic Distributor),又称跳转器或负载均衡器,可通过JavaScript按预设规则将用户随机引导至不同网站,适用于SEO优化、广告投放、A/B测试等场景。本文分享一段不到百行的JS代码,实现智能、隐蔽的流量控制,并附完整示例与算法解析。
178 1
|
JavaScript 前端开发 程序员
前端学习笔记——node.js
前端学习笔记——node.js
408 0
|
9月前
|
JavaScript
JS实现多条件搜索函数
JS封装的多条件搜索
|
10月前
|
JavaScript 前端开发 API
JavaScript中通过array.map()实现数据转换、创建派生数组、异步数据流处理、复杂API请求、DOM操作、搜索和过滤等,array.map()的使用详解(附实际应用代码)
array.map()可以用来数据转换、创建派生数组、应用函数、链式调用、异步数据流处理、复杂API请求梳理、提供DOM操作、用来搜索和过滤等,比for好用太多了,主要是写法简单,并且非常直观,并且能提升代码的可读性,也就提升了Long Term代码的可维护性。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
10月前
|
监控 JavaScript 前端开发
MutationObserver详解+案例——深入理解 JavaScript 中的 MutationObserver:原理与实战案例
MutationObserver 是一个非常强大的 API,提供了一种高效、灵活的方式来监听和响应 DOM 变化。它解决了传统 DOM 事件监听器的诸多局限性,通过异步、批量的方式处理 DOM 变化,大大提高了性能和效率。在实际开发中,合理使用 MutationObserver 可以帮助我们更好地控制 DOM 操作,提高代码的健壮性和可维护性。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
MutationObserver详解+案例——深入理解 JavaScript 中的 MutationObserver:原理与实战案例
|
监控 安全 中间件
Next.js 实战 (十):中间件的魅力,打造更快更安全的应用
这篇文章介绍了什么是Next.js中的中间件以及其应用场景。中间件可以用于处理每个传入请求,比如实现日志记录、身份验证、重定向、CORS配置等功能。文章还提供了一个身份验证中间件的示例代码,以及如何使用限流中间件来限制同一IP地址的请求次数。中间件相当于一个构建模块,能够简化HTTP请求的预处理和后处理,提高代码的可维护性,有助于创建快速、安全和用户友好的Web体验。
308 0
Next.js 实战 (十):中间件的魅力,打造更快更安全的应用
Next.js 实战 (二):搭建 Layouts 基础排版布局
本文介绍了作者在Next.js v15.x版本发布后,对一个旧项目的重构过程。文章详细说明了项目开发规范配置、UI组件库选择(最终选择了Ant-Design)、以及使用Ant Design的Layout组件实现中后台布局的方法。文末展示了布局的初步效果,并提供了GitHub仓库链接供读者参考学习。
439 1
Next.js 实战 (二):搭建 Layouts 基础排版布局
|
中间件 API
Next.js 实战 (八):使用 Lodash 打包构建产生的“坑”?
这篇文章介绍了作者在使用Nextjs15进行项目开发时遇到的部署问题。在部署过程中,作者遇到了打包构建时的一系列报错,报错内容涉及动态代码评估在Edge运行时不被允许等问题。经过一天的尝试和调整,作者最终删除了lodash-es库,并将radash的部分源码复制到本地,解决了打包报错的问题。文章最后提供了项目的线上预览地址,并欢迎读者留言讨论更好的解决方案。
323 0
Next.js 实战 (八):使用 Lodash 打包构建产生的“坑”?