揭开JavaScript字符串搜索的秘密:indexOf、includes与KMP算法

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: JavaScript字符串搜索涵盖`indexOf`、`includes`及KMP算法。`indexOf`返回子字符串位置,`includes`检查是否包含子字符串。KMP是高效的搜索算法,尤其适合长模式匹配。示例展示了如何在数据采集(如网页爬虫)中使用这些方法,结合代理IP进行安全搜索。代码示例中,搜索百度新闻结果并检测是否含有特定字符串。学习这些技术能提升编程效率和性能。

亿牛云代理.png

在JavaScript编程中,字符串搜索是一个常见而基础的操作。无论是查找特定字符、子字符串还是模式匹配,掌握有效的字符串搜索方法对于编程效率和性能优化至关重要。本文将揭示三种常用的JavaScript字符串搜索技术:indexOfincludes和KMP算法,并通过实际代码示例展示如何在数据采集的情况下实现这些技术。

概述

  1. 基本字符串方法
    • indexOf()
    • includes()
    • search()
    • match()
  2. 高级字符串搜索算法
    • KMP算法(Knuth-Morris-Pratt)
  3. 实现数据采集的字符串搜索

    细节

    基本字符串方法

    indexOf()

    indexOf()方法返回在调用该方法的字符串中找到的第一个子字符串的索引,如果未找到,则返回-1。

    let text = "hello world";
    let searchString = "world";
    console.log(text.indexOf(searchString)); // 输出:6
    
    includes()

    includes()方法检查一个字符串是否包含另一个子字符串,返回布尔值。

    let text = "hello world";
    let searchString = "world";
    console.log(text.includes(searchString)); // 输出:true
    

    KMP算法

    KMP算法是一种高效的字符串搜索算法,特别适用于在大文本中搜索长模式的情况。它的时间复杂度为O(n + m),比简单的暴力匹配算法更高效。
    ```javascript
    // KMP字符串搜索算法实现
    function kmpSearch(pattern, text) {
    if (pattern.length === 0) return 0;

    let lsp = [0];
    for (let i = 1; i < pattern.length; i++) {
    let j = lsp[i - 1];
    while (j > 0 && pattern[i] !== pattern[j]) {
    j = lsp[j - 1];
    }
    if (pattern[i] === pattern[j]) {
    j++;
    }
    lsp.push(j);
    }

    let j = 0;
    for (let i = 0; i < text.length; i++) {
    while (j > 0 && text[i] !== pattern[j]) {
    j = lsp[j - 1];
    }
    if (text[i] === pattern[j]) {
    j++;
    if (j === pattern.length) {

     return i - (j - 1);
    

    }
    }
    }
    return -1;
    }

let text = "haystack";
let pattern = "needle";
console.log(kmpSearch(pattern, text) !== -1); // 输出:false

#### 数据采集中实现字符串搜索
下面的示例展示了如何结合数据采集与上述字符串搜索方法。请注意在实际的网络爬虫中,我们常常需要使用代理IP来隐藏真实IP地址,防止被目标网站封禁。
```javascript
const axios = require('axios');
const querystring = require('querystring');

// 代理IP配置 亿牛云爬虫代理标准版
const proxy = {
  host: 'www.host.cn', // 代理IP地址
  port: 12345,              // 代理端口
  auth: {
    username: 'yourUsername', // 代理用户名
    password: 'yourPassword'  // 代理密码
  }
};

// KMP字符串搜索算法实现
function kmpSearch(pattern, text) {
  if (pattern.length === 0) return 0;

  let lsp = [0];
  for (let i = 1; i < pattern.length; i++) {
    let j = lsp[i - 1];
    while (j > 0 && pattern[i] !== pattern[j]) {
      j = lsp[j - 1];
    }
    if (pattern[i] === pattern[j]) {
      j++;
    }
    lsp.push(j);
  }

  let j = 0;
  for (let i = 0; i < text.length; i++) {
    while (j > 0 && text[i] !== pattern[j]) {
      j = lsp[j - 1];
    }
    if (text[i] === pattern[j]) {
      j++;
      if (j === pattern.length) {
        return i - (j - 1);
      }
    }
  }
  return -1;
}

// 搜索关键词“新闻”
const searchKeyword = '新闻';
const searchUrl = `https://www.baidu.com/s?${querystring.stringify({ wd: searchKeyword })}`;

// 使用代理IP发送HTTP请求访问百度搜索结果页面
axios.get(searchUrl, { proxy: proxy })
  .then(response => {
    let text = response.data;
    let searchString = "中国"; // 要搜索的字符串

    // 使用indexOf方法
    console.log('Using indexOf:', text.indexOf(searchString) !== -1);

    // 使用includes方法
    console.log('Using includes:', text.includes(searchString));

    // 使用KMP算法
    console.log('Using KMP:', kmpSearch(searchString, text) !== -1);
  })
  .catch(error => {
    console.error('Error fetching the page:', error);
  });

在这个代码示例中,我们通过百度的搜索接口进行搜索关键词“新闻”,然后检查搜索结果页面中是否包含字符串“中国”。使用了axios库进行HTTP请求,并配置了代理IP,以确保请求通过代理服务器发送。

结论

本文介绍了三种常用的JavaScript字符串搜索技术:indexOfincludes和KMP算法,并提供了结合爬虫代理IP技术的实现示例。掌握这些方法可以帮助开发者在各种场景中高效地进行字符串搜索和匹配。希望这篇文章对你理解和应用JavaScript字符串搜索有所帮助。

相关文章
|
1月前
|
算法
【算法】二分算法——搜索插入位置
【算法】二分算法——搜索插入位置
|
1月前
|
算法
【算法】滑动窗口——找到字符串中所有字母异位词
【算法】滑动窗口——找到字符串中所有字母异位词
|
19天前
|
JavaScript 算法 前端开发
JS算法必备之String常用操作方法
这篇文章详细介绍了JavaScript中字符串的基本操作,包括创建字符串、访问特定字符、字符串的拼接、位置查找、大小写转换、模式匹配、以及字符串的迭代和格式化等方法。
JS算法必备之String常用操作方法
|
19天前
|
JavaScript 算法 前端开发
JS算法必备之Array常用操作方法
这篇文章详细介绍了JavaScript中数组的创建、检测、转换、排序、操作方法以及迭代方法等,提供了数组操作的全面指南。
JS算法必备之Array常用操作方法
|
20天前
|
算法 C++
A : DS串应用–KMP算法
这篇文章提供了KMP算法的C++实现,包括计算模式串的next数组和在主串中查找模式串位置的函数,用于演示KMP算法的基本应用。
|
28天前
|
JavaScript 算法 前端开发
"揭秘Vue.js的高效渲染秘诀:深度解析Diff算法如何让前端开发快人一步"
【8月更文挑战第20天】Vue.js是一款备受欢迎的前端框架,以其声明式的响应式数据绑定和组件化开发著称。在Vue中,Diff算法是核心之一,它高效计算虚拟DOM更新时所需的最小实际DOM变更,确保界面快速准确更新。算法通过比较新旧虚拟DOM树的同层级节点,递归检查子节点,并利用`key`属性优化列表更新。虽然存在局限性,如难以处理跨层级节点移动,但Diff算法仍是Vue高效更新机制的关键,帮助开发者构建高性能Web应用。
38 1
|
1月前
|
算法 Java
掌握算法学习之字符串经典用法
文章总结了字符串在算法领域的经典用法,特别是通过双指针法来实现字符串的反转操作,并提供了LeetCode上相关题目的Java代码实现,强调了掌握这些技巧对于提升算法思维的重要性。
|
1月前
|
机器学习/深度学习 算法 文件存储
【博士每天一篇文献-算法】 PNN网络启发的神经网络结构搜索算法Progressive neural architecture search
本文提出了一种名为渐进式神经架构搜索(Progressive Neural Architecture Search, PNAS)的方法,它使用顺序模型优化策略和替代模型来逐步搜索并优化卷积神经网络结构,从而提高了搜索效率并减少了训练成本。
34 9
|
1月前
|
算法
【算法】递归、搜索与回溯——汉诺塔
【算法】递归、搜索与回溯——汉诺塔
|
1月前
|
存储 算法 调度
基于和声搜索算法(Harmony Search,HS)的机器设备工作最优调度方案求解matlab仿真
通过和声搜索算法(HS)实现多机器并行工作调度,以最小化任务完成时间。在MATLAB2022a环境下,不仅输出了工作调度甘特图,还展示了算法适应度值的收敛曲线。HS算法模拟音乐家即兴创作过程,随机生成初始解(和声库),并通过选择、微调生成新解,不断迭代直至获得最优调度方案。参数包括和声库大小、记忆考虑率、音调微调率及带宽。编码策略将任务与设备分配映射为和声,目标是最小化完成时间,同时确保满足各种约束条件。