备案控制台

开发者社区彭世瑜的博客文章正文

Python爬虫：splash的安装与简单示例

2022-09-03 491

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：splash的安装与简单示例

安装splash

1、安装docker（参考：mac安装docker）

2、安装splash

docker pull scrapinghub/splash  # 安装
docker run -p 8050:8050 scrapinghub/splash  # 运行

访问测试： http://localhost:8050/

代码示例

import requests
import time
from scrapy import Selector
def timer(func):
    def inner(*args):
        start = time.time()
        response = func(*args)
        print("time: %s" % (time.time() - start))
        return response
    return inner
@timer
def use_request(url):
     return requests.get(url)
@timer
def use_splash(url):
    splash_url = "http://localhost:8050/render.html"
    args = {
        "url": url,
        "timeout": 5,
        "image": 0
    }
    return requests.get(splash_url, params=args)
if __name__ == '__main__':
    url = "http://quotes.toscrape.com/js/"
    r1 = use_request(url)
    sel1 = Selector(r1)
    text = sel1.css(".quote .text::text").extract_first()
    print(text)
    r2 = use_splash(url)
    sel2 = Selector(r2)
    text = sel2.css(".quote .text::text").extract_first()
    print(text)
"""
time: 0.632809877396
None
time: 0.685022830963
“The world as we have created it is a process of our thinking. 
    It cannot be changed without changing our thinking.”
"""

通过测试，发现需要splash对网页进行了渲染，获取到了数据，而且速度还很快

args参数说明：

url: 需要渲染的页面地址

timeout: 超时时间

proxy：代理

wait：等待渲染时间

images: 是否下载，默认1（下载）

js_source: 渲染页面前执行的js代码

文章标签：

JavaScript

Python

容器

数据采集

Docker

关键词：

Python示例

Python爬虫

Python安装

爬虫python

爬虫示例

码农技术君

目录

相关文章

冷冻工厂

|

12天前

|

JSON Shell 数据格式

使用 pipx 安装并执行 Python 应用程序 (1)

使用 pipx 安装并执行 Python 应用程序 (1)

冷冻工厂

58 17 17

极客小俊

|

1月前

|

IDE 测试技术项目管理

【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

PyCharm是由JetBrains开发的Python集成开发环境（IDE），专为Python开发者设计，支持Web开发、调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试和版本控制等功能。它有专业版、教育版和社区版三个版本，其中社区版免费且适合个人和小型团队使用，包含基本的Python开发功能。安装PyCharm前需先安装Python解释器，并配置环境变量。通过简单的步骤即可在PyCharm中创建并运行Python项目，如输出“Hello World”。

极客小俊

284 13 13

【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

运营研究坊

|

2天前

|

Go Python

Python中的round函数详解及使用示例

`round()`函数是Python内置的用于四舍五入数字的工具。它接受一个数字（必需）和可选的小数位数参数，返回最接近的整数或指定精度的浮点数。本文详细介绍其用法、参数及示例，涵盖基本操作、负数处理、特殊情况及应用建议，帮助你更好地理解和运用该函数。

运营研究坊

18 2 2

小白学大数据

|

10天前

|

数据采集存储数据挖掘

深入剖析 Python 爬虫：淘宝商品详情数据抓取

深入剖析 Python 爬虫：淘宝商品详情数据抓取

小白学大数据

63 3 3

小白学大数据

|

13天前

|

存储数据采集数据库

Python爬虫实战：股票分时数据抓取与存储

Python爬虫实战：股票分时数据抓取与存储

小白学大数据

168 5 5

技术自由圈/原疯狂创客圈

|

1月前

|

人工智能 Java Python

python安装、vscode安装、conda安装：一文搞定Python的开发环境（史上最全）

尼恩架构团队推出了一系列《LLM大模型学习圣经》PDF，旨在帮助读者深入理解并掌握大型语言模型（LLM）及其相关技术。该系列包括Python基础、Transformer架构、LangChain框架、RAG架构及LLM智能体等内容，覆盖从理论到实践的各个方面。此外，尼恩还提供了配套视频教程，计划于2025年5月前发布，助力更多人成为大模型应用架构师，冲击年薪百万目标。

技术自由圈/原疯狂创客圈

209 21 23

站大爷

|

1月前

|

数据挖掘数据处理开发者

Python3 自定义排序详解：方法与示例

Python的排序功能强大且灵活，主要通过`sorted()`函数和列表的`sort()`方法实现。两者均支持`key`参数自定义排序规则。本文详细介绍了基础排序、按字符串长度或元组元素排序、降序排序、多条件排序及使用`lambda`表达式和`functools.cmp_to_key`进行复杂排序。通过示例展示了如何对简单数据类型、字典、类对象及复杂数据结构（如列车信息）进行排序。掌握这些技巧可以显著提升数据处理能力，为编程提供更强大的支持。

站大爷

39 10 10

winx_19970108018

|

1月前

|

数据采集 JSON 数据格式

Python爬虫：京东商品评论内容

京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品，消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据，支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。

winx_19970108018

119 5 5

土木林森

|

3月前

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

201 6 6

土木林森

|

3月前

|

数据采集前端开发中间件

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第26天】Python是一种强大的编程语言，在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架，为开发者提供了强大的工具集。本文通过实战案例，详细解析Scrapy框架的应用与技巧，并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。

土木林森

164 4 4

热门文章

最新文章

深度解析：使用ChromeDriver和webdriver_manager实现无头浏览器爬虫

SurfGen爬虫：解析HTML与提取关键数据

深入理解Docker：为你的爬虫项目提供隔离环境

Crawl4LLM：你的模型还在吃垃圾数据？CMU博士开源AI爬虫，自动筛选高价值网页，数据抓取质量飙升300%

Java爬虫获取微店店铺所有商品API接口设计与实现

Java爬虫获取微店快递费用item_fee API接口数据实现

如何在Java爬虫中设置动态延迟以避免API限制

Python 中调用 DeepSeek-R1 API的方法介绍，图文教程

Python爬虫实战：股票分时数据抓取与存储

通义灵码AI程序员实战：从零构建Python记账本应用的开发全解析

Python爬取某云热歌榜：解析动态加载的歌曲数据

Python 实现单向链表，和单向链表的反转

Python实用技巧：轻松驾驭多线程与多进程，加速任务执行

探索Python的力量：如何处理大数据

【02】整体试验思路，在这之前我们发现sec_uid,sec_uid是什么和uid的关系又是什么？相互如何转换？python开发之理论研究试验，如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡

实战指南：通过1688开放平台API获取商品详情数据（附Python代码及避坑指南）

Python学习：内建属性、内建函数的教程

python字符串类型及操作

Python中的round函数详解及使用示例

Python自动化Office文档处理全攻略

相关课程

更多

Python语言基础 - 函数、面向对象、异常处理

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

nodejs-release

debian-cd

下一篇

通义万相：视觉生成大模型再进化