分别利用phantomjs和slimerjs实现网页的爬取和截图代码逻辑

简介: 文章介绍了如何使用PhantomJS和SlimerJS两种工具实现网页的爬取和截图,提供了具体的代码示例和执行命令。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

phantomjs实现

具体步骤如下

1. 下载对应系统版本的phantomjs到本地,例如我的phantomjs-2.1.1-macosx

2.编写爬取逻辑代码phantomjs.js:

var page = require('webpage').create();

page.settings.userAgent = 'SpecialAgent';
page.settings.javascriptEnabled = true;

phantom.cutputEncoding = 'gbk';
page.open("https://www.jianshu.com", function(status) {
  if(status === "success") {
    console.log("Page success");
    page.render("jianshu.png");
  } else {
    console.log("Page failed to load.");
  };
phantom.exit();
});

3,执行

/Users/***/Desktop/phantomjs-2.1.1-macosx/bin/phantomjs phantomjs.js

slimerjs实现

具体步骤如下

1. 安装步骤命令:

npm install slimerjs
npm install node-slimerjs\n
./node_modules/.bin/slimerjs -v

2.编写爬取逻辑代码slimerjs.js:

var webpage = require('webpage').create();

webpage
    .open('https://davidwalsh.name')
    .then(function(){
   
      webpage.viewportSize = {
    width: 1042, height: 2048 };
      webpage.render('dwb.png', {
    onlyViewport: true });
      slimer.exit()
    });

3. 执行命令

./node_modules/.bin/slimerjs src/slimerjs.js
相关文章
|
6月前
|
数据采集 Web App开发 JSON
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
本文以百度为实战案例演示使用WebScraper插件抓取页面内容保存到文件中。以及WebScraper用法【2月更文挑战第1天】
431 2
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
|
12天前
|
数据采集 Web App开发 监控
捕获抖音截图:如何用Puppeteer保存页面状态
随着抖音直播的兴起,实时动态和互动元素吸引了大量用户。为了捕获直播页面的实时信息,本文介绍了如何使用 Puppeteer 和代理 IP 服务,解决页面动态加载、反爬虫机制等问题,实现自动化抓取和截图保存。通过安装 Puppeteer、配置代理 IP 和编写简单脚本,可以高效地捕获抖音直播页面的状态。
88 51
|
8天前
|
数据采集 存储 前端开发
Puppeteer教程:使用CSS选择器点击和爬取动态数据
本文介绍如何使用Puppeteer结合CSS选择器爬取动态网页数据,以贝壳网的二手房价格为例,通过代理IP提高爬虫成功率。文章详细讲解了Puppeteer的安装和配置、代码实现及数据趋势分析,帮助读者掌握动态网页爬取技术。
Puppeteer教程:使用CSS选择器点击和爬取动态数据
|
16天前
|
数据采集 机器学习/深度学习 供应链
用Puppeteer点击与数据爬取:实现动态网页交互
本文介绍了如何使用Puppeteer和代理IP抓取51job招聘信息。Puppeteer作为强大的浏览器自动化工具,能模拟用户操作、加载动态数据,结合代理IP技术可以提高抓取成功率并避免IP封禁。文章详细阐述了招聘信息的价值和市场应用,以及大数据分析在招聘信息采集中的应用。通过具体实现步骤和示例代码,展示了如何设置代理、模拟用户操作、抓取和分析数据,为企业和求职者提供有价值的市场洞察。
用Puppeteer点击与数据爬取:实现动态网页交互
|
2月前
|
数据采集 JSON JavaScript
如何通过 PhantomJS 模拟用户行为抓取动态网页内容
随着网页技术的进步,JavaScript 动态加载内容已成为新常态,对传统静态网页抓取提出挑战。PhantomJS 作为无头浏览器,能模拟用户行为并执行 JavaScript,成为获取动态网页内容的有效工具。本文介绍如何使用 PhantomJS 结合爬虫代理 IP 技术,抓取大众点评上的商家信息,包括店名、地址和评分等关键数据,从而更高效地获取动态网页内容,支持数据收集与分析。
188 13
如何通过 PhantomJS 模拟用户行为抓取动态网页内容
|
2月前
|
前端开发 JavaScript
前端JS控制网页复制粘贴
前端JS控制网页复制粘贴
|
6月前
|
缓存 前端开发 JavaScript
如何优化前端网页加载速度:7个实用技巧
在当今互联网时代,网页加载速度对用户体验至关重要。本文将介绍7个实用的技巧,帮助前端开发者优化网页加载速度,提升用户体验。从压缩资源到异步加载,从图片优化到缓存策略,这些技巧将帮助你在前端开发中取得更好的效果。
|
前端开发
前端常规关于网页文件下载的问题
前端常规关于网页文件下载的问题
63 0
|
6月前
|
数据采集 JavaScript 前端开发
如何使用JS逆向爬取网站数据
如何使用JS逆向爬取网站数据
|
6月前
|
Web App开发 数据采集 数据挖掘
还有这种骚操作:使用Golang实现无头浏览器浏览和截图
还有这种骚操作:使用Golang实现无头浏览器浏览和截图
352 0