爬虫利器:jsDOM

简介: 爬虫利器:jsDOM

需求:之前使用node做爬虫的时候,使用puppeteer来模拟浏览器

然后抓取信息

但是这样的效率和消耗太大了,

所以需要一种更为效率的方法:直接使用axios来请求对应的url

然后通过jsDom,渲染成一个虚拟的html然后进行取值

废话不多说直接上代码:

先安装jsdom

npm i jsdom
复制代码
然后写下面实例化

const jsdom = require("jsdom");
const { JSDOM } = jsdom;
const dom = new JSDOM(<!DOCTYPE html><p>Hello world</p>);
console.log(dom.window.document.querySelector("p").textContent); // "Hello world"
复制代码
基础的代码逻辑明白了之后,

把它使用到我们正常的业务里面:

axios
.get(url)
.then((res) => {

   //注意:需要先return 一次 再下一个回调里面进行渲染,因为获取的html数据多的时候 就可能导致实例化失败
return res.data;

})
.then((html) => {

let dom = new JSDOM(`${html}`);
    //抓取到想要的元素的信息
 console.log(
   dom.window.document.querySelector(".product-single__title").textContent
 );

});
复制代码
参考地址:https://www.npmjs.com/package/jsdom

作者: Bill 本文地址: http://biaoblog.cn/info?id=1633921071061

版权声明: 本文为原创文章,版权归 biaoblog 个人博客 所有,欢迎分享本文,转载请保留出处,谢谢!

相关文章
|
2月前
|
数据采集 存储 前端开发
Python爬虫实战:动态网页数据抓取与分析
本文将介绍如何利用Python编写爬虫程序,实现对动态网页的数据抓取与分析。通过分析目标网站的结构和请求方式,我们可以利用Selenium等工具模拟浏览器行为,成功获取到需要的数据并进行进一步处理与展示。
|
7月前
|
数据采集 数据安全/隐私保护 索引
爬虫学习
爬虫学习
|
数据采集 存储 监控
|
数据采集 数据可视化 Python
Python爬虫学习——简单爬虫+可视化
Python爬虫学习——简单爬虫+可视化
178 0
|
数据采集 数据库 Python
Python爬虫:滤网架构处理爬虫数据
Python爬虫:滤网架构处理爬虫数据
156 0
Python爬虫:滤网架构处理爬虫数据
|
数据采集 Web App开发 存储
Python爬虫:常用的爬虫工具汇总
Python爬虫:常用的爬虫工具汇总
1187 0
Python爬虫:常用的爬虫工具汇总
|
数据采集 Web App开发 iOS开发
python爬虫系列之初识爬虫
python爬虫系列之初识爬虫前言 我们这里主要是利用requests模块和bs4模块进行简单的爬虫的讲解,让大家可以对爬虫有了初步的认识,我们通过爬几个简单网站,让大家循序渐进的掌握爬虫的基础知识,做网络爬虫还是需要基本的前端的知识的,下面我们进行我们的爬虫讲解 在进行实战之前,我们先给大家看下...
1535 0
|
数据采集 测试技术
爬虫实战——爬取大麦网
前两天国庆,朋友在看中国好声音,出于对周杰伦以及李健的喜爱,朋友想去鸟巢看10月7号的巅峰之夜,于是...我上了大麦网查看票价,但是出于职业病,不小心就按下了F12,就有了这个项目 言归正传,爬取大麦网 经过反复点击发现,大麦网在经过多次点击之后...
4312 0
|
Web App开发 数据采集 JSON
爬虫实战——拉勾网
闲来无事,想看看拉勾上关于的Python的招聘信息 于是。。。爬下来呗 话不多说,直接开始 不对,首先还是说一下主要使用到的技术栈,这里我没有使用requests库,而是使用selenium爬的 why ? 我喜欢呗~ seleniu...
2169 0
|
数据采集 SQL JSON
爬虫进阶:Scrapy抓取科技平台Zealer
开篇   这次的目标网站也是本人一直以来有在关注的科技平台:Zealer,爬取的信息包括全部的科技资讯以及相应的评论。默认配置下运行,大概跑了半个多小时,最终抓取了5000+的资讯以及10几万的评论。
1484 0

热门文章

最新文章