Python | Scrapy + Selenium模拟登录CSDN

简介: 本文旨在记录selenium的一些操作实例,没啥技术含量,也没有太多概念的内容。

废话

本文旨在记录selenium的一些操作实例,没啥技术含量,也没有太多概念的内容。

安装selenium

pip install selenium

下载驱动(chromedriver)

下载前需要确认适配自己的浏览器版本

https://chromedriver.storage.googleapis.com/index.html

selenium的基本用法

基本用法看官方文档,讲述的很清楚了,推荐

https://selenium-python.readthedocs.io/installation.html

常用的实例

设置浏览器不加载图片
from selenium import webdriver
# 设置不加载图片
chrome_opt = webdriver.ChromeOptions()
prefs = {
    "profile.managed_default_content_settings.images"2
}

chrome_opt.add_experimental_option("prefs", prefs)

driver = webdriver.Chrome(chrome_options=chrome_opt)

driver.get("https://www.taobao.com")
点击弹窗与点击下拉列表
from selenium import webdriver
from selenium.webdriver.support.select import Select
driver = webdriver.Chrome()
# 点击接受弹窗
driver.switch_to.alert.accept()

# 点击下拉列表
sel = driver.find_element_by_id("nr")
Select(sel).select_by_index(2)
切换窗口
from selenium import webdriver
driver = webdriver.Chrome()

first_win = driver.current_window_handle

all_win = driver.current_window_handle

for win in all_win:
    if win != first_win:
        driver.switch_to.window(win)
自动下拉列表(以开源中国的博客栏目为例)

很多页面是下拉加载更多信息,我们如何模拟这个下拉操作:

from selenium import webdriver
import time

driver = webdriver.Chrome()

driver.get('https://www.oschina.net/blog')

time.sleep(5)
# 实现自动下拉刷新 下拉三页
for i in range(3):
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;')
    time.sleep(3)
如何模拟手机访问?
from selenium import webdriver
# 模拟手机
mobilesetting = {"deviceName":"iPhone 6 Plus"}

options = webdriver.ChromeOptions()

options.add_experimental_option("mobileEmulation", mobilesetting)

driver = webdriver.Chrome(chrome_options=options)
# 设置大小
driver.set_window_size(400800)

# driver.maximize_window()
driver.get("https://www.taobao.com")
# 后退
driver.back()
# 前进
driver.forward()
# 刷新
driver.refresh()
如何为selenium设置代理?(连接无用户名密码认证的代理)
# 设置代理
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://ip:port")
driver = webdriver.Chrome(chrome_options=options)
driver.get("http://httpbin.org/ip")
print(driver.page_source)
如何为selenium设置代理?(有用户名和密码的连接)

推荐几篇文章:

https://www.cnblogs.com/roystime/p/6935543.html
https://stackoverflow.com/questions/29983106/how-can-i-set-proxy-with-authentication-in-selenium-chrome-web-driver-using-pyth#answer-30953780
https://cuiqingcai.com/4880.html

scrapy + selenium 模拟登录csdn

其实,没啥技术含量。只是简单运用,敲一遍加深印象。

关于selenium的基础用法强烈建议用的时候看下文档就好,技术含量不高,无需过多费心。

spider.py

# -*- coding: utf-8 -*-
import scrapy
from selenium import webdriver

class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['csdn.net']
    start_urls = ['https://passport.csdn.net/account/login','https://i.csdn.net/#/account/index']

    def __init__(self):
        # mobilsetting = {"deviceName":"iPhone 6 Plus"}
        # options = webdriver.ChromeOptions()
        # options.add_experimental_option("mobileEmulation", mobilsetting)
        self.browser = None
        self.cookies = None
        # self.browser.set_window_size(400,800)
        super(CsdnSpider, self).__init__()
    def spider_closed(self, response):
        print("spider close")
        self.brower.close()


    def parse(self, response):
        print(response.url)
        print(response.body.decode("utf-8","ignore"))

middlewares.py

from scrapy import signals
from selenium import webdriver
from scrapy.http import HtmlResponse
import time
import requests
class LoginMiddleware(object):
    def process_request(self, request, spider):
        if spider.name == "csdn":
            if request.url.find("login") != -1:
                spider.browser = webdriver.Chrome()
                spider.browser.get(request.url)
                switch = spider.browser.find_element_by_xpath('//a[@class="login-code__open js_login_trigger login-user__active"]')
                if switch.text == '账号登录':
                    switch.click()
                time.sleep(3)
                username = spider.browser.find_element_by_id('username')
                password = spider.browser.find_element_by_id('password')
                time.sleep(2)
                username.send_keys("")
                time.sleep(1)
                password.send_keys("")
                time.sleep(2)
                click = spider.browser.find_element_by_class_name("logging")
                time.sleep(2)
                click.click()
                time.sleep(8)
                spider.cookies = spider.browser.get_cookies()
                return HtmlResponse(
                    url=spider.browser.current_url,
                    body=spider.browser.page_source,
                    encoding="utf-8"
                )
            else:
                req = requests.session()
                for cookie in spider.cookies:
                    req.cookies.set(cookie['name'], cookie['value'])
                req.headers.clear()
                newpage = req.get(request.url)
                print(request.url)
                print(newpage.text)
                return HtmlResponse(
                    url=request.url,
                    body=newpage.text,
                    encoding="utf-8"
                )


原文发布时间为:2018-09-17
本文作者:煌金的咸鱼
本文来自云栖社区合作伙伴“咸鱼普拉思”,了解相关信息可以关注“咸鱼普拉思”。
相关文章
|
22天前
|
数据采集 人工智能 数据可视化
Python selenium爬虫被检测到,该怎么破?
Python selenium爬虫被检测到,该怎么破?
|
21天前
|
Web App开发 测试技术 API
自动化测试之美:使用Selenium和Python进行Web应用测试
【8月更文挑战第31天】在软件开发的快节奏世界中,自动化测试如同一束明灯,照亮了质量保证之路。本文将引导你通过Selenium和Python的强大组合,探索如何构建高效的Web应用测试框架。我们不仅会讨论理论,还会深入代码,从一个简单的示例开始,逐步扩展至更复杂的场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的见解和实用的技巧。让我们一同揭开自动化测试的神秘面纱,体验它的魅力所在。
|
21天前
|
Web App开发 XML 测试技术
自动化测试框架设计:以Python和Selenium为例
【8月更文挑战第31天】在软件开发的快节奏中,自动化测试成为确保产品质量的关键步骤。本文将引导读者了解如何结合Python语言和Selenium工具来设计一个高效的自动化测试框架。通过浅显易懂的语言和实际代码示例,我们将探索自动化测试框架的核心组件,并学习如何实现它们。无论你是测试新手还是希望提升自动化技能的开发者,这篇文章都将为你打开一扇通向高效软件测试的大门。
|
23天前
|
敏捷开发 测试技术 数据安全/隐私保护
自动化测试的高效之路:如何利用Python和Selenium提升测试效率
【8月更文挑战第28天】本文旨在探讨通过Python语言结合Selenium框架来提高软件测试的效率。文章不仅介绍了自动化测试的基本概念,还提供了具体的代码示例,帮助读者理解如何实现自动化测试脚本,并指出了在实施过程中可能遇到的问题及其解决方案。通过本文,读者将学会如何有效地使用Python和Selenium工具,以减少重复性工作,提升测试流程的效率与准确性。
|
7天前
|
敏捷开发 测试技术 持续交付
自动化测试之美:如何用Selenium和Python打造高效测试脚本
【9月更文挑战第13天】在软件开发的海洋中,自动化测试是那抹不可或缺的亮色。它不仅提升了测试效率,还保障了产品质量。本文将带你领略使用Selenium和Python构建自动化测试脚本的魅力所在,从环境的搭建到脚本的编写,再到问题的排查,每一步都是对软件质量把控的深刻理解和实践。让我们开始这段探索之旅,解锁自动化测试的秘密吧!
9 0
|
20天前
|
Web App开发 测试技术 持续交付
探索自动化测试:以Selenium和Python为例
【8月更文挑战第31天】自动化测试在现代软件开发中扮演着不可或缺的角色。本文将通过一个简化的示例,展示如何使用Selenium和Python进行Web应用的自动化测试。我们将从安装必要的工具开始,逐步构建一个简单的测试脚本,并执行它来验证其功能。通过这个过程,我们旨在揭示自动化测试的价值,并激励读者深入探索这一领域。
|
20天前
|
Web App开发 安全 测试技术
自动化测试中的Python魔法:使用Selenium和pytest框架
【8月更文挑战第31天】 在软件开发的海洋中,自动化测试是确保航行安全的灯塔。本文将带你探索如何利用Python语言结合Selenium和pytest框架,搭建一套高效的自动化测试体系。我们将从基础设置讲起,逐步深入到编写测试用例,最后通过一个实战案例来展示如何在实际项目中运用这些工具。文章旨在为读者提供一套清晰的自动化测试解决方案,让你的开发之旅更加顺畅。
|
20天前
|
Web App开发 测试技术 API
探索自动化测试的奥秘:以Selenium和Python为例
【8月更文挑战第31天】在软件开发的海洋中,自动化测试是一艘能够带领我们驶向高效、准确代码实现的航船。本文将揭开自动化测试的神秘面纱,通过Selenium和Python这两个工具的结合使用,展示如何构建一个简单而强大的自动化测试脚本。从环境配置到脚本编写,再到实际运行,我们将一步步深入自动化测试的世界,解锁软件质量保障的新技能。
|
20天前
|
前端开发 IDE 测试技术
自动化测试中的代码魔法:使用Python和Selenium框架
【8月更文挑战第31天】在软件开发的海洋中,自动化测试是一艘能够带领团队穿越波涛的帆船。本文将引导读者了解如何利用Python语言结合Selenium框架,编写简洁而强大的自动化测试脚本。我们将从搭建开发环境开始,逐步深入到实际案例,最后通过一个简单示例展示如何实现端到端的自动化测试流程。文章不仅提供实用的代码片段,还旨在激发读者对于软件测试深层次思考的热情。
|
23天前
|
Web App开发 敏捷开发 JavaScript
自动化测试的利器:Selenium与Python的完美结合
【8月更文挑战第28天】本文将介绍如何利用Python语言和Selenium库进行Web应用的自动化测试。我们将从基础概念入手,逐步深入到实际操作,包括环境设置、基本操作演示以及高级技巧的应用。通过具体示例,你将学会如何编写高效的自动化测试脚本,确保你的Web应用运行流畅且无缺陷。无论你是测试新手还是希望提升自动化测试技能的开发者,这篇文章都将为你开启自动化测试的新视角。