爬虫利器:jsDOM

简介: 爬虫利器:jsDOM

需求:之前使用node做爬虫的时候,使用puppeteer来模拟浏览器

然后抓取信息

但是这样的效率和消耗太大了,

所以需要一种更为效率的方法:直接使用axios来请求对应的url

然后通过jsDom,渲染成一个虚拟的html然后进行取值

废话不多说直接上代码:

先安装jsdom

npm i jsdom
复制代码
然后写下面实例化

const jsdom = require("jsdom");
const { JSDOM } = jsdom;
const dom = new JSDOM(<!DOCTYPE html><p>Hello world</p>);
console.log(dom.window.document.querySelector("p").textContent); // "Hello world"
复制代码
基础的代码逻辑明白了之后,

把它使用到我们正常的业务里面:

axios
.get(url)
.then((res) => {

   //注意:需要先return 一次 再下一个回调里面进行渲染,因为获取的html数据多的时候 就可能导致实例化失败
return res.data;
AI 代码解读

})
.then((html) => {

let dom = new JSDOM(`${html}`);
    //抓取到想要的元素的信息
 console.log(
   dom.window.document.querySelector(".product-single__title").textContent
 );
AI 代码解读

});
复制代码
参考地址:https://www.npmjs.com/package/jsdom

作者: Bill 本文地址: http://biaoblog.cn/info?id=1633921071061

版权声明: 本文为原创文章,版权归 biaoblog 个人博客 所有,欢迎分享本文,转载请保留出处,谢谢!

目录
打赏
0
0
0
0
0
分享
相关文章
在uniapp中监听globalData中的值变化
在uniapp中监听globalData中的值变化
420 0
uniapp 全局数据(globalData)的设置,获取,更改
uniapp 全局数据(globalData)的设置,获取,更改
3078 0
AI计算机视觉笔记二十三:PP-Humanseg训练及onnxruntime部署
本文介绍了如何训练并使用PaddleSeg的人像分割模型PP-HumanSeg,将其导出为ONNX格式,并使用onnxruntime进行部署。首先在AutoDL服务器上搭建环境并安装所需库,接着下载数据与模型,完成模型训练、评估和预测。最后,通过paddle2onnx工具将模型转换为ONNX格式,并编写预测脚本验证转换后的模型效果。此过程适用于希望在不同平台上部署人像分割应用的开发者。
ptp 时钟同步
ptp 时钟同步
232 0
若依修改定时任务,定时任务在系统监控的定时任务当中,宕机情况都不会去管,涉及到定时任务
若依修改定时任务,定时任务在系统监控的定时任务当中,宕机情况都不会去管,涉及到定时任务
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问