爬虫利器:jsDOM

简介: 爬虫利器:jsDOM

需求:之前使用node做爬虫的时候,使用puppeteer来模拟浏览器

然后抓取信息

但是这样的效率和消耗太大了,

所以需要一种更为效率的方法:直接使用axios来请求对应的url

然后通过jsDom,渲染成一个虚拟的html然后进行取值

废话不多说直接上代码:

先安装jsdom

npm i jsdom
复制代码
然后写下面实例化

const jsdom = require("jsdom");
const { JSDOM } = jsdom;
const dom = new JSDOM(<!DOCTYPE html><p>Hello world</p>);
console.log(dom.window.document.querySelector("p").textContent); // "Hello world"
复制代码
基础的代码逻辑明白了之后,

把它使用到我们正常的业务里面:

axios
.get(url)
.then((res) => {

   //注意:需要先return 一次 再下一个回调里面进行渲染,因为获取的html数据多的时候 就可能导致实例化失败
return res.data;

})
.then((html) => {

let dom = new JSDOM(`${html}`);
    //抓取到想要的元素的信息
 console.log(
   dom.window.document.querySelector(".product-single__title").textContent
 );

});
复制代码
参考地址:https://www.npmjs.com/package/jsdom

作者: Bill 本文地址: http://biaoblog.cn/info?id=1633921071061

版权声明: 本文为原创文章,版权归 biaoblog 个人博客 所有,欢迎分享本文,转载请保留出处,谢谢!

相关文章
|
2月前
|
数据采集 缓存 安全
一:《智慧的网络爬虫》— 认识爬虫
网络爬虫又称为网络蜘蛛;网络蚂蚁;网络机器人等,可以自动高效地从互联网的海量信息中浏览获取到我们感兴趣的信息,在浏览信息的时候需要按照我们制定的规则进行,而这些规则就是网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索,也就是代替人去模拟浏览器进行网页操作​。在本篇文章中需掌握http与https协议,以及如何去抓包
33 2
一:《智慧的网络爬虫》—  认识爬虫
|
2月前
|
数据采集 XML 缓存
心得经验总结:爬虫(爬虫原理与数据抓取)
心得经验总结:爬虫(爬虫原理与数据抓取)
29 0
|
3月前
|
存储 网络安全 API
数据抓取实战(一)
本文介绍了在网络通信理解和控制中常用的两款工具——FiddlerCore和TitaniumProxy。
52 1
|
11月前
|
数据采集 数据安全/隐私保护 索引
爬虫学习
爬虫学习
|
数据采集 机器人 Python
Python爬虫|反爬初体验
几种简单高效的反爬虫方法总结。
Python爬虫|反爬初体验
|
数据采集 存储 监控
|
数据采集 数据可视化 Python
Python爬虫学习——简单爬虫+可视化
Python爬虫学习——简单爬虫+可视化
192 0
|
数据采集 Web App开发 存储
Python爬虫:常用的爬虫工具汇总
Python爬虫:常用的爬虫工具汇总
1329 0
Python爬虫:常用的爬虫工具汇总
|
数据采集 数据库 Python
Python爬虫:滤网架构处理爬虫数据
Python爬虫:滤网架构处理爬虫数据
175 0
Python爬虫:滤网架构处理爬虫数据
|
数据采集 Web App开发 iOS开发
python爬虫系列之初识爬虫
python爬虫系列之初识爬虫前言 我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循序渐进的掌握爬虫的基础知识,做网络爬虫还是需要基本的前端的知识的,下面我们进行我们的爬虫讲解 在进行实战之前,我们先给大家看下...
1546 0