爬虫利器:jsDOM

简介: 爬虫利器:jsDOM

需求:之前使用node做爬虫的时候,使用puppeteer来模拟浏览器

然后抓取信息

但是这样的效率和消耗太大了,

所以需要一种更为效率的方法:直接使用axios来请求对应的url

然后通过jsDom,渲染成一个虚拟的html然后进行取值

废话不多说直接上代码:

先安装jsdom

npm i jsdom
复制代码
然后写下面实例化

const jsdom = require("jsdom");
const { JSDOM } = jsdom;
const dom = new JSDOM(<!DOCTYPE html><p>Hello world</p>);
console.log(dom.window.document.querySelector("p").textContent); // "Hello world"
复制代码
基础的代码逻辑明白了之后,

把它使用到我们正常的业务里面:

axios
.get(url)
.then((res) => {

   //注意:需要先return 一次 再下一个回调里面进行渲染,因为获取的html数据多的时候 就可能导致实例化失败
return res.data;

})
.then((html) => {

let dom = new JSDOM(`${html}`);
    //抓取到想要的元素的信息
 console.log(
   dom.window.document.querySelector(".product-single__title").textContent
 );

});
复制代码
参考地址:https://www.npmjs.com/package/jsdom

作者: Bill 本文地址: http://biaoblog.cn/info?id=1633921071061

版权声明: 本文为原创文章,版权归 biaoblog 个人博客 所有,欢迎分享本文,转载请保留出处,谢谢!

相关文章
|
7月前
|
数据采集 存储 数据处理
Scrapy:Python网络爬虫框架的利器
在当今信息时代,网络数据已成为企业和个人获取信息的重要途径。而Python网络爬虫框架Scrapy则成为了网络爬虫工程师的必备工具。本文将介绍Scrapy的概念与实践,以及其在数据采集和处理过程中的应用。
80 1
|
7月前
|
数据采集 存储 前端开发
Python爬虫实战:动态网页数据抓取与分析
本文将介绍如何利用Python编写爬虫程序,实现对动态网页的数据抓取与分析。通过分析目标网站的结构和请求方式,我们可以利用Selenium等工具模拟浏览器行为,成功获取到需要的数据并进行进一步处理与展示。
|
1月前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
3月前
|
数据采集 Java
爬虫系统学习
爬虫系统学习
|
5月前
|
数据采集 存储 JSON
解密网络爬虫与数据抓取技术的奇妙世界
【7月更文挑战第2天】网络爬虫是自动化数据抓取的关键工具,用于解锁互联网数据的潜力。本文深入探讨了爬虫基础,包括模拟HTTP请求、HTML解析和数据存储。通过实例展示如何用Python构建简单爬虫,强调法律与伦理考虑,如遵循robots.txt、尊重版权和隐私,以及应对反爬策略。合法、负责任的爬虫技术在商业、科研等领域发挥着重要作用,要求我们在数据探索中保持透明、最小影响和隐私保护。
64 1
|
6月前
|
数据采集 XML 缓存
心得经验总结:爬虫(爬虫原理与数据抓取)
心得经验总结:爬虫(爬虫原理与数据抓取)
67 0
|
7月前
|
存储 网络安全 API
数据抓取实战(一)
本文介绍了在网络通信理解和控制中常用的两款工具——FiddlerCore和TitaniumProxy。
118 1
|
数据采集 数据安全/隐私保护 索引
爬虫学习
爬虫学习
107 1
|
数据采集 存储 监控
|
数据采集 数据可视化 Python
Python爬虫学习——简单爬虫+可视化
Python爬虫学习——简单爬虫+可视化
212 0