开发者社区彭世瑜的博客文章正文

Python爬虫：scrapy-splash的请求头和代理参数设置

2022-09-03 603

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：scrapy-splash的请求头和代理参数设置

3中方式任选一种即可

1、lua中脚本设置代理和请求头：

function main(splash, args)
  -- 设置代理        
  splash:on_request(function(request)
        request:set_proxy{
         host = "27.0.0.1",
         port = 8000,
     }
  end)
    -- 设置请求头
    splash:set_user_agent("Mozilla/5.0")
    -- 自定义请求头
   splash:set_custom_headers({
    ["Accept"] = "application/json, text/plain, */*"
    })
    splash:go("https://www.baidu.com/")
    return splash:html()

2、scrapy中设置代理

def start_requests(self):
    for url in self.start_urls:
        yield SplashRequest(url,
            endpoint='execute',
            args={'wait': 5,
                  'lua_source': source，
                  'proxy': 'http://proxy_ip:proxy_port'
                  }

scrapy中设置请求头一样的在headers中设置

3、中间件中设置代理

class ProxyMiddleware(object):
      def process_request(self, request, spider):
       request.meta['splash']['args']['proxy'] = proxyServer
       request.headers["Proxy-Authorization"] = proxyAuth

参考：

文章标签：

Python

数据采集

中间件

关键词：

Python爬虫

爬虫python

Python Scrapy

爬虫scrapy

Python爬虫scrapy

码农技术君

爱专研的技术土狗

1月前

数据采集存储 XML

Python爬虫：深入探索1688关键词接口获取之道

在数字化经济中，数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台，其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术，合法合规地获取1688关键词接口，助力商家洞察市场趋势，优化营销策略。

爱专研的技术土狗

74 3 4

小白学大数据

7天前

数据采集存储缓存

如何使用缓存技术提升Python爬虫效率

小白学大数据

30 2 2

小白学大数据

8天前

数据采集 Web App开发监控

Python爬虫：爱奇艺榜单数据的实时监控

小白学大数据

51 3 3

爱专研的技术土狗

17天前

数据采集 JSON API

如何利用Python爬虫淘宝商品详情高级版（item_get_pro）API接口及返回值解析说明

本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口（item_get_pro），获取商品的详细信息，包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容，强调了数据获取的合规性和安全性。

爱专研的技术土狗

70 13 13

爱专研的技术土狗

22天前

数据采集存储 API

利用Python爬虫获取1688关键词接口全攻略

本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据，包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤，强调遵守法律法规和合理使用爬虫技术的重要性。

爱专研的技术土狗

73 5 5

91HTTP代理

28天前

数据采集

动态代理与静态代理在爬虫解析的优缺点

随着科技和互联网的发展，越来越多企业需要使用代理进行数据抓取。本文介绍了HTTP动态代理与静态代理的区别，帮助您根据具体需求选择最佳方案。动态代理适合大规模、高效率的爬取任务，但稳定性较差；静态代理则适用于小规模、高稳定性和速度要求的场景。选择时需考虑目标、数据量及网站策略。

91HTTP代理

45 4 4

winx_19970108018

29天前

数据采集 JSON 开发者

Python爬虫京东商品详情数据接口

京东商品详情数据接口（JD.item_get）提供商品标题、价格、品牌、规格、图片等详细信息，适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限，使用时需遵循相关规则，注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。

winx_19970108018

58 5 5

小王老师呀

2月前

XML 数据采集数据格式

Python 爬虫必备杀器，xpath 解析 HTML

【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言，通过路径表达式选取节点或节点集。它不仅适用于 XML，也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择，如 `//p` 选择所有段落标签，`//a[@href='example.com']` 选择特定链接。在 Python 中，常用 lxml 库结合 XPath 进行网页数据抓取，支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用，如 `contains()` 用于模糊匹配。

小王老师呀

74 7 8

土木林森

2月前

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

117 6 6

土木林森

2月前

数据采集前端开发中间件

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第26天】Python是一种强大的编程语言，在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架，为开发者提供了强大的工具集。本文通过实战案例，详细解析Scrapy框架的应用与技巧，并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。

土木林森

98 4 4

Python爬虫：scrapy-splash的请求头和代理参数设置

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python爬虫：scrapy-splash的请求头和代理参数设置

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像