备案控制台

开发者社区开发与运维文章正文

scrapy模拟登录

2023-12-24 36

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： scrapy模拟登录

import scrapy


class LoginSpider(scrapy.Spider):
    name = 'login'
    start_urls = ['https://github.com/login']

    def parse(self, response):
        ever_token = response.xpath('//*[@id="login"]/div[4]/form/input[1]/@value').extract_first()
        timestamp_secret = response.xpath('//*[@id="login"]/div[4]/form/div/input[11]/@value').extract_first()
        timestamp = response.xpath('//*[@id="login"]/div[4]/form/div/input[10]/@value').extract_first()

        data = {
   
            "commit": "Sign in",
            "authenticity_token": ever_token, # token每次都会变,可以在login网页中查找到
            "login": "xxx", # 填成自己的
            "password": "xxx", # 填成自己的
            "webauthn-support": "supported",
            "webauthn-iuvpaa-support": "unsupported",
            "return_to": "https://github.com/login",
            "timestamp": timestamp,
            "timestamp_secret": timestamp_secret
        }

        yield scrapy.FormRequest(  # 用的就是post方式
            url='https://github.com/session', # post网址
            callback=self.after_login,
            formdata=data
        )

    def after_login(self, response):
        yield scrapy.Request('https://github.com/yezhoubing', callback=self.check_login)

    def check_login(self, response):
        print(response.xpath('html/head/title/text()').extract_first())

用scrapy.FormRequest（）方法发送post请求

文章标签：

Python

关键词：

Scrapy模拟登录

叶安义

目录

相关文章

咸鱼学Python

|

数据安全/隐私保护 Python

Python | Scrapy + Selenium模拟登录CSDN

Python | Scrapy + Selenium模拟登录CSDN

咸鱼学Python

154 0 0

中乘风

|

JSON 前端开发 API

Scrapy框架-模拟登录之JWT验证及post特殊格式数据（json）

一、背景之前有记录过普通的scrapy模拟登录，这种方法可以满足了日常爬虫的登录需求。但是技术一直在进步，近几年前后端分离的趋势越来越好，很多web都采用前后端分离的技术。

中乘风

2125 0 0

技术小能手

|

Web App开发 Python

Python | Scrapy + Selenium模拟登录CSDN

本文旨在记录selenium的一些操作实例，没啥技术含量，也没有太多概念的内容。

技术小能手

4487 0 0

中乘风

|

Java 数据安全/隐私保护 Python

scrapy模拟登录代码演示及cookie原理说明

登录的需求有些数据，必须在登录之后才能查看，所以我们在爬取过程中就会产生模拟登录的需求，它有两个点： 1、未登录的情况下无法查看数据，或者直接弹出登录框提示你先登录 2、登录后登录状态的保持（通常可以理解为cookie的处理）登录的逻辑访问登录页面(部分网站会在登录页面设定token或标识来反爬虫，根据Network查看post数据来确认) 构造登录所需数据，并携带伪造的数据发送登录请求(如token或标识、User-Agent/HOST/Referer等数据，向登录地址POST数据。

中乘风

2735 0 0

bruce_xiaowei

|

27天前

|

数据采集中间件开发者

Scrapy爬虫框架-自定义中间件

Scrapy爬虫框架-自定义中间件

bruce_xiaowei

46 1 1

bruce_xiaowei

|

27天前

|

数据采集中间件 Python

Scrapy爬虫框架-通过Cookies模拟自动登录

Scrapy爬虫框架-通过Cookies模拟自动登录

bruce_xiaowei

53 0 0

小白学大数据

|

6月前

|

数据采集中间件 Python

Scrapy爬虫：利用代理服务器爬取热门网站数据

Scrapy爬虫：利用代理服务器爬取热门网站数据

小白学大数据

135 3 3

bruce_xiaowei

|

27天前

|

数据采集中间件数据挖掘

Scrapy 爬虫框架（一）

Scrapy 爬虫框架（一）

bruce_xiaowei

40 0 0

bruce_xiaowei

|

27天前

|

数据采集 XML 前端开发

Scrapy 爬虫框架（二）

Scrapy 爬虫框架（二）

bruce_xiaowei

38 0 0

Python大数据分析

|

3月前

|

数据采集中间件调度

Scrapy 爬虫框架的基本使用

Scrapy 爬虫框架的基本使用

Python大数据分析

83 3 3

热门文章

最新文章

Scrapy分布式、去重增量爬虫的开发与设计

【转】Duplicate Elimination in Scrapy

scrapy爬虫学习

初识 scrapy 框架 - 安装

Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy

Scrapy选择器的用法

Scrapy1.4最新官方文档总结 4 爬虫

windows7 python3.4 安装scrapy

Scrapy进阶-命令行的工作原理（以runspider为例）

windows 7 安装 scrapy

python-scrapy框架（四）settings.py文件的用法详解实例

python-scrapy框架（三）Pipeline文件的用法讲解

python-scrapy框架（二）items文件夹的用法讲解

python-scrapy框架（一）Spider文件夹的用法讲解

【专栏】随着技术发展，Scrapy将在网络爬虫领域持续发挥关键作用

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

项目配置之道：优化Scrapy参数提升爬虫效率

介绍一下常见的爬虫框架或库，如`Scrapy`。

如何使用Scrapy提取和处理数据

深度剖析Selenium与Scrapy的黄金组合：实现动态网页爬虫

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月