Phantomjs的正确打开方式

简介:

前段时间分析了Selenium+Phantomjs的使用方法以及性能优化问题,期间也分析了利用Selenium+phantomjs爬虫爬过的一些坑问题。然而在使用phantomjs的过程中,并没有正真提升phantomjs的性能,爬虫性能也没有很好的提升。经过网友的提醒,发现其实是使用phantomjs的方法出了问题,因此无论怎么优化,都不能从根本上去提升性能。那么本篇就来好好说说,Phantomjs正确的打开方式。

抛弃selenium+phantomjs

  之前我一直使用selenium去使用phantomjs,原因是因为selenium封装了phantomjs一部分功能,selenium又提供了python的接口模块,在python语言中可以很好地去使用selenium,间接地就可以使用phantomjs。然而,我现在要说的是,是时候抛弃selenium+phantomjs了,原因之一此封装的接口很久没有更新了(没人维护了),原因之二selenium只实现了一部分phantomjs功能,且很不完善。  
phantomjs APi

  通过查看phantomjs官方介绍,我们可以发现phantomjs的功能异常强大,绝不仅仅是selenium封装的功能那么简陋。phantomjs提供了很多种APi,具体可以查看:phantomjs api介绍,其中最常用的要属Phantomjs WebService与Phantomjs WebPage,前者用于开启http服务,后者用于发起http请求。
Phantomjs正确使用方式

正确打开方式应该使用phantomjs Webservice作为一种web服务的形式(api),将其与其他语言分离开来(比如python)。

设计流程

  Python通过http请求下发任务,Phantomjs Webservice获取任务后去处理,处理完以后再将结果返回给Python。任务调度、存储等复杂操作交给Python去做,Python可以写成异步并发去请求Phantomjs Webservice,需要注意的是目前一个Phantomjs Webservice只支持10个并发。但我们可以在一台服务器上多开几个phantomjs Webservice启用不同的端口即可,或者可以多台服务器做个集群,用nginx做反向代理。
Phantomjs Webservice

新建test.js,写入如下代码:

04bfe79160d01eb66b95aa9956e1885440f0d0ff

作用:处理http请求,获取url,进行截图或者获取源码操作。 
使用:

phantomjs.exe test.js

会在本地开启web服务,端口为8080。

Python Client

新建http_request.py,写入如下代码:

ff2ad0847c3337d9ccffdf7259714cde172adb20

作用:异步并发下发任务。

运行截图

运行python以后,异步下发10个任务,Phantomjs服务器端接收到url并开始处理,并发处理10个任务并输入结果。


原文发布时间为:2017-08-27

本文作者:nmask

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

相关文章
|
JSON IDE 机器人
超简单:mac导出微信聊天记录(附上粉丝群全部聊天记录)
今天再给大家讲解一下如何直导出mac版本微信的聊天记录,当然如果你没有mac,那可以直接关闭这篇文章了。
11566 0
超简单:mac导出微信聊天记录(附上粉丝群全部聊天记录)
|
数据安全/隐私保护 iOS开发 开发者
hbuilderx打包应用上传到app store构建版本的教程
hbuilderx打包应用上传到app store构建版本的教程
334 0
|
安全 芯片
单导联心电贴
推荐一款单导联心电贴
|
传感器 Java 测试技术
APP集成卡口性能标准(一)
最开始做性能测试的时候,会有些摸不着头脑,虽然之前一直做客户端开发,但对于性能测试这块的研究比较少,于是试着找了一些工具,看了看相关文档就开始动手了。有时候因为性能问题比较明显就直接发现了,再之后遇到类似的性能测试需求,就按照上次的经验去做,有时候可能发现问题,也可能发现不了,还有些时候甚至是在浪费时间。随着经验的逐渐增加,我慢慢意识到,以前的很多测试方法既盲目又不利于沉淀,对于较为成熟的软件,这样做的测试有效性往往比较低,运气好才会发现问题,如果是较深层次的问题,要么遇不到,要么遇到了也找不出原因。因此有必要总结出一套标准的测试流程和方法,来提高测试的有效性。
436 0
APP集成卡口性能标准(一)
|
敏捷开发 Web App开发 缓存
阿里云云效产品使用问题之如何查看统计情况
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
存储 负载均衡 前端开发
保姆级教程-分布式文件系统FastDFS(高效存储,有效解决大量资源上传下载)(一)
保姆级教程-分布式文件系统FastDFS(高效存储,有效解决大量资源上传下载)
789 0
保姆级教程-分布式文件系统FastDFS(高效存储,有效解决大量资源上传下载)(一)
|
NoSQL Java 数据库连接
四.MongoDB入门-Java操作MongoDB
MongoDB入门-Java操作MongoDB
|
设计模式 开发框架 缓存
知道了,去卷后端 →「Nest.js 入门及实践」:)
知道了,去卷后端 →「Nest.js 入门及实践」:)
455 0

热门文章

最新文章

下一篇
开通oss服务