分别利用phantomjs和slimerjs实现网页的爬取和截图代码逻辑

简介: 文章介绍了如何使用PhantomJS和SlimerJS两种工具实现网页的爬取和截图,提供了具体的代码示例和执行命令。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

phantomjs实现

具体步骤如下

1. 下载对应系统版本的phantomjs到本地,例如我的phantomjs-2.1.1-macosx

2.编写爬取逻辑代码phantomjs.js:

var page = require('webpage').create();

page.settings.userAgent = 'SpecialAgent';
page.settings.javascriptEnabled = true;

phantom.cutputEncoding = 'gbk';
page.open("https://www.jianshu.com", function(status) {
  if(status === "success") {
    console.log("Page success");
    page.render("jianshu.png");
  } else {
    console.log("Page failed to load.");
  };
phantom.exit();
});

3,执行

/Users/***/Desktop/phantomjs-2.1.1-macosx/bin/phantomjs phantomjs.js

slimerjs实现

具体步骤如下

1. 安装步骤命令:

npm install slimerjs
npm install node-slimerjs\n
./node_modules/.bin/slimerjs -v

2.编写爬取逻辑代码slimerjs.js:

var webpage = require('webpage').create();

webpage
    .open('https://davidwalsh.name')
    .then(function(){
   
      webpage.viewportSize = {
    width: 1042, height: 2048 };
      webpage.render('dwb.png', {
    onlyViewport: true });
      slimer.exit()
    });

3. 执行命令

./node_modules/.bin/slimerjs src/slimerjs.js
相关文章
|
8月前
|
数据采集 Web App开发 JSON
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
本文以百度为实战案例演示使用WebScraper插件抓取页面内容保存到文件中。以及WebScraper用法【2月更文挑战第1天】
563 2
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
|
16天前
|
数据采集 存储 供应链
数据合并:cbind函数在网页爬取中的实用技巧
本文介绍了如何通过代理IP和多线程技术提高网页爬取效率,并使用`cbind`函数合并数据。以财经网新闻为例,展示了从指定网站下载、解析内容,到数据获取、合并及分析的完整流程。通过亿牛云爬虫代理和Python代码实现,确保高效无痕访问,最终将结果保存为CSV文件。此方法适用于大量分散数据的爬取与处理,助力经济趋势分析。
97 47
|
2月前
|
数据采集 Web App开发 监控
捕获抖音截图:如何用Puppeteer保存页面状态
随着抖音直播的兴起,实时动态和互动元素吸引了大量用户。为了捕获直播页面的实时信息,本文介绍了如何使用 Puppeteer 和代理 IP 服务,解决页面动态加载、反爬虫机制等问题,实现自动化抓取和截图保存。通过安装 Puppeteer、配置代理 IP 和编写简单脚本,可以高效地捕获抖音直播页面的状态。
139 51
|
2月前
|
数据采集 机器学习/深度学习 供应链
用Puppeteer点击与数据爬取:实现动态网页交互
本文介绍了如何使用Puppeteer和代理IP抓取51job招聘信息。Puppeteer作为强大的浏览器自动化工具,能模拟用户操作、加载动态数据,结合代理IP技术可以提高抓取成功率并避免IP封禁。文章详细阐述了招聘信息的价值和市场应用,以及大数据分析在招聘信息采集中的应用。通过具体实现步骤和示例代码,展示了如何设置代理、模拟用户操作、抓取和分析数据,为企业和求职者提供有价值的市场洞察。
160 1
用Puppeteer点击与数据爬取:实现动态网页交互
|
4月前
|
数据采集 JSON JavaScript
如何通过 PhantomJS 模拟用户行为抓取动态网页内容
随着网页技术的进步,JavaScript 动态加载内容已成为新常态,对传统静态网页抓取提出挑战。PhantomJS 作为无头浏览器,能模拟用户行为并执行 JavaScript,成为获取动态网页内容的有效工具。本文介绍如何使用 PhantomJS 结合爬虫代理 IP 技术,抓取大众点评上的商家信息,包括店名、地址和评分等关键数据,从而更高效地获取动态网页内容,支持数据收集与分析。
316 13
如何通过 PhantomJS 模拟用户行为抓取动态网页内容
|
3月前
|
存储 JSON JavaScript
JavaScript动态渲染页面爬取——Pyppeteer爬取实战
JavaScript动态渲染页面爬取——Pyppeteer爬取实战
52 0
|
8月前
|
缓存 前端开发 JavaScript
如何优化前端网页加载速度:实用技巧大揭秘
在当今互联网时代,快速加载的网页是用户体验的关键。本文将介绍一些实用的前端优化技巧,从减少HTTP请求到使用CDN加速,帮助开发人员提高网页加载速度,提升用户满意度。
|
8月前
|
缓存 前端开发 JavaScript
如何优化前端网页加载速度:7个实用技巧
在当今互联网时代,网页加载速度对用户体验至关重要。本文将介绍7个实用的技巧,帮助前端开发者优化网页加载速度,提升用户体验。从压缩资源到异步加载,从图片优化到缓存策略,这些技巧将帮助你在前端开发中取得更好的效果。
|
前端开发
前端常规关于网页文件下载的问题
前端常规关于网页文件下载的问题
74 0
|
8月前
|
数据采集 JavaScript 前端开发
如何使用JS逆向爬取网站数据
如何使用JS逆向爬取网站数据

热门文章

最新文章

相关实验场景

更多