Python | Scrapy + Selenium模拟登录CSDN

简介: Python | Scrapy + Selenium模拟登录CSDN

废话

本文旨在记录selenium的一些操作实例,没啥技术含量,也没有太多概念的内容。

安装selenium

pip install selenium

下载驱动(chromedriver)

下载前需要确认适配自己的浏览器版本

https://chromedriver.storage.googleapis.com/index.html

selenium的基本用法

基本用法看官方文档,讲述的很清楚了,推荐

https://selenium-python.readthedocs.io/installation.html

常用的实例

设置浏览器不加载图片
from selenium import webdriver
# 设置不加载图片
chrome_opt = webdriver.ChromeOptions()
prefs = {
    "profile.managed_default_content_settings.images": 2
}
chrome_opt.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(chrome_options=chrome_opt)
driver.get("https://www.taobao.com")
点击弹窗与点击下拉列表
from selenium import webdriver
from selenium.webdriver.support.select import Select
driver = webdriver.Chrome()
# 点击接受弹窗
driver.switch_to.alert.accept()
# 点击下拉列表
sel = driver.find_element_by_id("nr")
Select(sel).select_by_index(2)
切换窗口
from selenium import webdriver
driver = webdriver.Chrome()
first_win = driver.current_window_handle
all_win = driver.current_window_handle
for win in all_win:
    if win != first_win:
        driver.switch_to.window(win)
自动下拉列表(以开源中国的博客栏目为例)

很多页面是下拉加载更多信息,我们如何模拟这个下拉操作:

from selenium import webdriver
import time
driver = webdriver.Chrome()
driver.get('https://www.oschina.net/blog')
time.sleep(5)
# 实现自动下拉刷新 下拉三页
for i in range(3):
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;')
    time.sleep(3)
如何模拟手机访问?
from selenium import webdriver
# 模拟手机
mobilesetting = {"deviceName":"iPhone 6 Plus"}
options = webdriver.ChromeOptions()
options.add_experimental_option("mobileEmulation", mobilesetting)
driver = webdriver.Chrome(chrome_options=options)
# 设置大小
driver.set_window_size(400, 800)
# driver.maximize_window()
driver.get("https://www.taobao.com")
# 后退
driver.back()
# 前进
driver.forward()
# 刷新
driver.refresh()
如何为selenium设置代理?(连接无用户名密码认证的代理)
# 设置代理
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://ip:port")
driver = webdriver.Chrome(chrome_options=options)
driver.get("http://httpbin.org/ip")
print(driver.page_source)
如何为selenium设置代理?(有用户名和密码的连接)

推荐几篇文章:

https://www.cnblogs.com/roystime/p/6935543.html

https://stackoverflow.com/questions/29983106/how-can-i-set-proxy-with-authentication-in-selenium-chrome-web-driver-using-pyth#answer-30953780

https://cuiqingcai.com/4880.html

scrapy + selenium 模拟登录csdn

其实,没啥技术含量。只是简单运用,敲一遍加深印象。

关于selenium的基础用法强烈建议用的时候看下文档就好,技术含量不高,无需过多费心。

spider.py

# -*- coding: utf-8 -*-
import scrapy
from selenium import webdriver
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['csdn.net']
    start_urls = ['https://passport.csdn.net/account/login','https://i.csdn.net/#/account/index']
    def __init__(self):
        # mobilsetting = {"deviceName":"iPhone 6 Plus"}
        # options = webdriver.ChromeOptions()
        # options.add_experimental_option("mobileEmulation", mobilsetting)
        self.browser = None
        self.cookies = None
        # self.browser.set_window_size(400,800)
        super(CsdnSpider, self).__init__()
    def spider_closed(self, response):
        print("spider close")
        self.brower.close()
    def parse(self, response):
        print(response.url)
        print(response.body.decode("utf-8","ignore"))

middlewares.py

from scrapy import signals
from selenium import webdriver
from scrapy.http import HtmlResponse
import time
import requests
class LoginMiddleware(object):
    def process_request(self, request, spider):
        if spider.name == "csdn":
            if request.url.find("login") != -1:
                spider.browser = webdriver.Chrome()
                spider.browser.get(request.url)
                switch = spider.browser.find_element_by_xpath('//a[@class="login-code__open js_login_trigger login-user__active"]')
                if switch.text == '账号登录':
                    switch.click()
                time.sleep(3)
                username = spider.browser.find_element_by_id('username')
                password = spider.browser.find_element_by_id('password')
                time.sleep(2)
                username.send_keys("")
                time.sleep(1)
                password.send_keys("")
                time.sleep(2)
                click = spider.browser.find_element_by_class_name("logging")
                time.sleep(2)
                click.click()
                time.sleep(8)
                spider.cookies = spider.browser.get_cookies()
                return HtmlResponse(
                    url=spider.browser.current_url,
                    body=spider.browser.page_source,
                    encoding="utf-8"
                )
            else:
                req = requests.session()
                for cookie in spider.cookies:
                    req.cookies.set(cookie['name'], cookie['value'])
                req.headers.clear()
                newpage = req.get(request.url)
                print(request.url)
                print(newpage.text)
                return HtmlResponse(
                    url=request.url,
                    body=newpage.text,
                    encoding="utf-8"
                )
相关文章
|
8天前
|
前端开发 JavaScript Java
【实操】SpringBoot监听Iphone15邮件提醒,Selenium+Python自动化抢购脚本
本文介绍了一个结合SpringBoot和Python的实用功能,旨在监控iPhone 15的库存状态并通过邮件提醒用户。系统采用SpringBoot监听苹果官网API,解析JSON数据判断是否有货,并展示最近的库存记录。此外,还能自动触发Selenium+Python脚本实现自动化购买。文中详细介绍了技术栈、接口分析、邮件配置及自动化脚本的设置方法。该项目不仅适用于熟悉后端开发的人员,也适合回顾Layui和Jquery等前端技术。
28 0
【实操】SpringBoot监听Iphone15邮件提醒,Selenium+Python自动化抢购脚本
|
9天前
|
数据采集 人工智能 数据可视化
Python selenium爬虫被检测到,该怎么破?
Python selenium爬虫被检测到,该怎么破?
|
8天前
|
Web App开发 测试技术 API
自动化测试之美:使用Selenium和Python进行Web应用测试
【8月更文挑战第31天】在软件开发的快节奏世界中,自动化测试如同一束明灯,照亮了质量保证之路。本文将引导你通过Selenium和Python的强大组合,探索如何构建高效的Web应用测试框架。我们不仅会讨论理论,还会深入代码,从一个简单的示例开始,逐步扩展至更复杂的场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的见解和实用的技巧。让我们一同揭开自动化测试的神秘面纱,体验它的魅力所在。
|
8天前
|
Web App开发 XML 测试技术
自动化测试框架设计:以Python和Selenium为例
【8月更文挑战第31天】在软件开发的快节奏中,自动化测试成为确保产品质量的关键步骤。本文将引导读者了解如何结合Python语言和Selenium工具来设计一个高效的自动化测试框架。通过浅显易懂的语言和实际代码示例,我们将探索自动化测试框架的核心组件,并学习如何实现它们。无论你是测试新手还是希望提升自动化技能的开发者,这篇文章都将为你打开一扇通向高效软件测试的大门。
|
10天前
|
敏捷开发 测试技术 数据安全/隐私保护
自动化测试的高效之路:如何利用Python和Selenium提升测试效率
【8月更文挑战第28天】本文旨在探讨通过Python语言结合Selenium框架来提高软件测试的效率。文章不仅介绍了自动化测试的基本概念,还提供了具体的代码示例,帮助读者理解如何实现自动化测试脚本,并指出了在实施过程中可能遇到的问题及其解决方案。通过本文,读者将学会如何有效地使用Python和Selenium工具,以减少重复性工作,提升测试流程的效率与准确性。
|
7天前
|
Web App开发 测试技术 持续交付
探索自动化测试:以Selenium和Python为例
【8月更文挑战第31天】自动化测试在现代软件开发中扮演着不可或缺的角色。本文将通过一个简化的示例,展示如何使用Selenium和Python进行Web应用的自动化测试。我们将从安装必要的工具开始,逐步构建一个简单的测试脚本,并执行它来验证其功能。通过这个过程,我们旨在揭示自动化测试的价值,并激励读者深入探索这一领域。
|
7天前
|
Web App开发 安全 测试技术
自动化测试中的Python魔法:使用Selenium和pytest框架
【8月更文挑战第31天】 在软件开发的海洋中,自动化测试是确保航行安全的灯塔。本文将带你探索如何利用Python语言结合Selenium和pytest框架,搭建一套高效的自动化测试体系。我们将从基础设置讲起,逐步深入到编写测试用例,最后通过一个实战案例来展示如何在实际项目中运用这些工具。文章旨在为读者提供一套清晰的自动化测试解决方案,让你的开发之旅更加顺畅。
|
7天前
|
Web App开发 测试技术 API
探索自动化测试的奥秘:以Selenium和Python为例
【8月更文挑战第31天】在软件开发的海洋中,自动化测试是一艘能够带领我们驶向高效、准确代码实现的航船。本文将揭开自动化测试的神秘面纱,通过Selenium和Python这两个工具的结合使用,展示如何构建一个简单而强大的自动化测试脚本。从环境配置到脚本编写,再到实际运行,我们将一步步深入自动化测试的世界,解锁软件质量保障的新技能。
|
7天前
|
前端开发 IDE 测试技术
自动化测试中的代码魔法:使用Python和Selenium框架
【8月更文挑战第31天】在软件开发的海洋中,自动化测试是一艘能够带领团队穿越波涛的帆船。本文将引导读者了解如何利用Python语言结合Selenium框架,编写简洁而强大的自动化测试脚本。我们将从搭建开发环境开始,逐步深入到实际案例,最后通过一个简单示例展示如何实现端到端的自动化测试流程。文章不仅提供实用的代码片段,还旨在激发读者对于软件测试深层次思考的热情。
|
7天前
|
Web App开发 机器学习/深度学习 测试技术
软件测试中的自动化策略:以Selenium为例
【8月更文挑战第31天】在软件开发周期中,测试环节扮演着至关重要的角色。随着敏捷开发的兴起,自动化测试成为提升效率和确保产品质量的关键手段。本文将介绍如何利用Selenium工具实现软件的自动化测试,从搭建环境到编写测试脚本,再到执行和分析结果,我们将一步步揭示自动化测试的全过程。文章旨在通过具体示例,帮助读者理解并运用自动化测试技术,提高测试工作的效率和效果。
下一篇
DDNS