开发者社区彭世瑜的博客文章正文

Python爬虫：scrapy-splash的请求头和代理参数设置

2022-09-03 516

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：scrapy-splash的请求头和代理参数设置

3中方式任选一种即可

1、lua中脚本设置代理和请求头：

function main(splash, args)
  -- 设置代理        
  splash:on_request(function(request)
        request:set_proxy{
         host = "27.0.0.1",
         port = 8000,
     }
  end)
    -- 设置请求头
    splash:set_user_agent("Mozilla/5.0")
    -- 自定义请求头
   splash:set_custom_headers({
    ["Accept"] = "application/json, text/plain, */*"
    })
    splash:go("https://www.baidu.com/")
    return splash:html()

2、scrapy中设置代理

def start_requests(self):
    for url in self.start_urls:
        yield SplashRequest(url,
            endpoint='execute',
            args={'wait': 5,
                  'lua_source': source，
                  'proxy': 'http://proxy_ip:proxy_port'
                  }

scrapy中设置请求头一样的在headers中设置

3、中间件中设置代理

class ProxyMiddleware(object):
      def process_request(self, request, spider):
       request.meta['splash']['args']['proxy'] = proxyServer
       request.headers["Proxy-Authorization"] = proxyAuth

参考：

文章标签：

Python

数据采集

中间件

关键词：

Python Scrapy

Python爬虫

爬虫python

Python设置

Python参数

码农技术君

小白学大数据

1月前

数据采集中间件 Python

Scrapy爬虫：利用代理服务器爬取热门网站数据

小白学大数据

53 3 3

冷冻工厂

1月前

存储前端开发机器人

Python网络数据抓取（6）：Scrapy 实战

冷冻工厂

33 2 3

东方睿赢

5天前

数据采集存储中间件

Scrapy，作为一款强大的Python网络爬虫框架，凭借其高效、灵活、易扩展的特性，深受开发者的喜爱

【6月更文挑战第10天】Scrapy是Python的高效爬虫框架，以其异步处理、多线程及中间件机制提升爬取效率。它提供丰富组件和API，支持灵活的数据抓取、清洗、存储，可扩展到各种数据库。通过自定义组件，Scrapy能适应动态网页和应对反爬策略，同时与数据分析库集成进行复杂分析。但需注意遵守法律法规和道德规范，以合法合规的方式进行爬虫开发。随着技术发展，Scrapy在数据收集领域将持续发挥关键作用。

东方睿赢

31 4 4

愿天堂没有BUG（公众号同名）

17天前

数据采集存储中间件

Python高效爬虫——scrapy介绍与使用

Scrapy是一个快速且高效的网页抓取框架，用于抓取网站并从中提取结构化数据。它可用于多种用途，从数据挖掘到监控和自动化测试。相比于自己通过requests等模块开发爬虫，scrapy能极大的提高开发效率，包括且不限于以下原因： 1. 它是一个异步框架，并且能通过配置调节并发量，还可以针对域名或ip进行精准控制 2. 内置了xpath等提取器，方便提取结构化数据 3. 有爬虫中间件和下载中间件，可以轻松地添加、修改或删除请求和响应的处理逻辑，从而增强了框架的可扩展性 4. 通过管道方式存储数据，更加方便快捷的开发各种数据储存方式

愿天堂没有BUG（公众号同名）

35 2 2

蓝易云

1月前

监控测试技术持续交付

Python自动化测试代理程序可用性

总之，通过编写测试用例、自动化测试和设置监控系统，您可以确保Python自动化测试代理程序的可用性，并及时发现和解决问题。这有助于提供更可靠和高性能的代理服务。

蓝易云

20 4 4

梦回故国楼台梦

1月前

数据采集存储中间件

【专栏】随着技术发展，Scrapy将在网络爬虫领域持续发挥关键作用

【4月更文挑战第27天】Scrapy是Python的高效爬虫框架，以其异步处理、多线程和中间件机制提升爬取效率。它的灵活性体现在可定制化组件、支持多种数据库存储及与Selenium、BeautifulSoup等工具集成。Scrapy易于扩展，允许自定义下载器和解析器。在实践中，涉及项目配置、Spider类编写、数据抓取、存储与分析。面对动态网页和反爬机制，Scrapy可通过Selenium等工具应对，但需注意法规与道德规范。随着技术发展，Scrapy将在网络爬虫领域持续发挥关键作用。

梦回故国楼台梦

37 2 2

游客xusvbxsoy3qma

1月前

数据采集定位技术 Python

Python爬虫IP代理技巧，让你不再为IP封禁烦恼了！

本文介绍了Python爬虫应对IP封禁的策略，包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率，降低被封禁风险。

游客xusvbxsoy3qma

125 0 0

长梦

1月前

数据采集存储 JSON

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests，强调了异常处理、代理设置和请求重试；BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化；而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码，帮助读者深化理解并提升面试表现。

长梦

32 0 0

阿文没烦恼

1月前

数据挖掘 API 数据安全/隐私保护

python请求模块requests如何添加代理ip

阿文没烦恼

50 0 0

阿文没烦恼

1月前

存储数据库 Python

使用Python编写代理IP自动切换技巧

阿文没烦恼

29 0 0

Python爬虫：scrapy-splash的请求头和代理参数设置

热门文章

最新文章

相关课程

相关电子书

相关实验场景