大型情感剧集Selenium:7_使用selenium,让整个网站都认识我!

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 通过这篇文章我想告诉你,任何人学selenium,都不是白费的!

说说selenium这个系列


这个大型情感剧集selenium系列,从开始做到现在第七集。一直在更新些零碎的知识,也没有系统的写过这方面代码。


很多朋友觉得这个系列的文章,就只是面向自动化测试去写的,其他人没必要看,学了没用。然后导致这个系列整体的阅读量炒鸡低!


那么今天,针对咱们之前学的只是,再补充一些,来做一个联系吧,名字就叫:使用selenium,让整个网站都认识我!张狂吧?其实开玩笑的。


通过这篇文章我想告诉你,任何人学selenium,都不是白费的!想做微商、推广的更应该关注我这篇文章,哈哈。


避坑指南与涉及知识点


大概罗列下场景覆盖中,涉及到的知识点

cookie登陆简书

本来想找个新账号的,但就我一个人,这会儿2点了朋友圈求不怕封想出名的账号,貌似也没结果

携带cookie登陆简书的方法,我上篇文章说了,就不再赘述了。


动态刷新简书首页文章链接

这里要详细说下简书的文章刷新方式...

  • 进入简书进来后,默认刷新10-15篇文章
  • 页面下拉框滑动,会通过Ajax刷新文章,一次刷新5篇刷新3次
  • 之后滑动刷新失效,需要点击“阅读更多”来获取新的文章
  • 保存刷新日志,如该文章之前回复过,则跳过访问下一篇文章
  1. 这几种场景,我们可以通过js控制滚动条滑动到底部来实现刷新文章
  2. 通过try ... except 判断是否出现阅读更多的文章来进行点击事件
  3. 通过link.text与我们之前保存的日志文件进行对比,判断新文章访问
  4. 点击链接会弹出新标签页,此处涉及标签切换、访问、关闭和主handle的返回


文章回复

本来这里没什么知识点的,但是简书做的比较溜,文章内容也是Ajax成段展示,刚进入页面无法后去到所有的内容,更没办法定位到回复栏

开始使用直接下拉到底部的方式,但这种方式依然无法获取所有内容及回复窗口

需要逐步刷新,加载所有内容后,才能显示回复栏...

for循环每次下拉500单位,最终得到文章内容的方式完成此方式

WebDriverWait(driver,totaltime,checksplit).until()

其实本来这里,用不到WebDriverWait的,这种一般都是在页面访问后,进行动态等待的,但咱们没这个场景就生硬的使用下吧...


设置刷新文章页数

根据想刷新的页数,来控制主页面进行多少次下拉框拖动和点击“阅读更多”...

最终结束时,将访问过的文章重新写入到日志文件中...


代码实现


由于cookie涉及到我的登陆验证,所有就在代码中隐藏了,如何获取,上篇文章说过了...

我习惯不太好,注释写的比较少,抱歉,有不清楚的可以微信问我...


# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/4 02:19
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : Be_A_Famous.py
import time
import os
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException, \
    ElementNotInteractableException, TimeoutException
class FamousPerson:
    # 简书首页地址
    BaseUrl = "https://www.jianshu.com"
    # 脚本目录
    BaseDir = os.path.dirname(os.path.realpath(__file__))
    # 日志文件
    text_name = 'comment.txt'
    # 默认评论页面数
    Page = 3
    # 设置变量,定位已访问的文章数目
    ContentNo = 0
    def __init__(self):
        self.log_text = os.path.join(self.BaseDir, self.text_name)
        self.log_list = self.get_log()
        self.driver = self.init_driver()
        self.base_handle = None
        self.note_list = []
    def get_log(self):
        if os.path.exists(self.log_text):
            with open(self.log_text, 'r', encoding='utf-8') as f:
                return f.readlines()
        return []
    @staticmethod
    def init_driver():
        """
        basic option:
            set screen size
            disable info bar
        :return: driver
        """
        options = webdriver.ChromeOptions()
        options.add_argument('window-size=900,600')
        options.add_argument('disable-infobars')
        return webdriver.Chrome(options=options)
    def prepare_work(self):
        """
        1. add cookie
        2. set base handle
        """
        self.driver.get(self.BaseUrl)
        self.driver.add_cookie(cookie)
        self.driver.refresh()
        self.base_handle = self.driver.current_window_handle
    def control_scrollbar(self):
        """
        use js to control scroll down ...
        """
        _scrollTop = 0
        # 渐进下拉,避免大幅度页面偏移,导致的textarea获取失败...
        for i in range(20):
            _scrollTop += 400
            js = "var q=document.documentElement.scrollTop={}".format(_scrollTop)
            self.driver.execute_script(js)
            time.sleep(0.2)
        # 简书AJax刷新3次后,必须点击一次查看更多,才能继续刷新...
        try:
            self.driver.find_element_by_class_name('load-more').click()
        except NoSuchElementException:
            pass
        except ElementNotInteractableException:
            pass
    def add_comment(self):
        # 判断窗口并切换
        for handle in self.driver.window_handles:
            if handle != self.base_handle:
                self.driver.switch_to.window(handle)
            print("访问文章:{}".format(self.driver.title))
        # 滚动至页面底部
        self.control_scrollbar()
        try:
            WebDriverWait(self.driver, 5, 0.5).until(
                ec.presence_of_element_located((By.TAG_NAME, 'textarea')))
            self.driver.find_element_by_tag_name('textarea').send_keys(comment_info)
            self.driver.find_element_by_class_name('btn-send').click()
            print("回复成功")
        except TimeoutException:
            print("回复失败,未找到textarea,蓝瘦...")
        # 为展示效果,等待2秒,使用时可删除...
        time.sleep(1)
        self.driver.close()
        # 切换至主窗口
        self.driver.switch_to.window(self.base_handle)
    def get_content(self):
        while self.Page:
            notes = self.driver.find_elements_by_css_selector('.note-list li')
            for note in notes[self.ContentNo:]:
                try:
                    note_link = note.find_element_by_tag_name('a')
                    note_name = note_link.text + '\n'
                    if note_name in self.log_list:
                        continue
                    self.log_list.append(note_name)
                    note_link.click()
                    time.sleep(1)
                    self.add_comment()
                    self.ContentNo += 1
                except:
                    pass
            self.Page -= 1
            # 下拉刷新一次页面
            self.control_scrollbar()
        with open(self.log_text, 'w') as f:
            f.writelines(self.log_list)
def run():
    # 实例化方法
    start_test = FamousPerson()
    # add cookie set base_handle
    start_test.prepare_work()
    # 启动评论
    start_test.get_content()
if __name__ == '__main__':
    comment_info = ("为作者点赞! 小弟技术公众号 【清风Python】 刚刚创建,"
                    "欢迎大家关注,谢谢支持。")
    cookie = {
        'name': 'remember_user_token',
        'value': 'token_value'  # 练习时请自行获取,方法上篇文章写了
    }
    run()

代码执行效果


网络异常,图片无法展示
|

selenium实战.gif

大家看到了间隔时间太短,连续回复,会被系统禁止操作....至于间隔多久,我只是为了写文章,就不去仔细考究了....


The End


今天的selenium内容就更新到这里,算是对之前知识的一个总结,和剩余内容的一个总体概括与练习吧。

其实selenium涉及的知识还有很多,以及与它相关的一些部署、搭建、自动化报告等等功能。但因为这个系列看的人实在太少,懒得更新了啊....

先暂时告一段落吧,如果还有人催更,我在想想下来写点什么吧。




相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
7月前
|
数据采集 Web App开发 搜索推荐
突破目标网站的反爬虫机制:Selenium策略分析
突破目标网站的反爬虫机制:Selenium策略分析
|
5月前
|
数据采集 前端开发 JavaScript
被爬网站用fingerprintjs来对selenium进行反爬,怎么破?
闲暇时看到一个问题关于如何应对FingerprintJS的唯一标记技术。FingerprintJS通过收集浏览器特性如Canvas、音频、字体及插件信息生成唯一标识符,用于识别和追踪用户。常见应对策略如使用`stealth.min.js`脚本或虚拟指纹插件有局限性。高级解决方案包括: - **浏览器特征随机化**:如Canvas和音频指纹随机化,动态替换插件和字体。 - **真实用户流量模拟**:模拟自然的鼠标移动与点击、键盘输入节奏。 - **服务端策略**:使用高质量代理IP服务,如青果网络提供的代理IP,结合IP地址轮换、会话管理和合理的切换频率设置。
|
4月前
|
数据采集 Web App开发 存储
基于Python的51job(前程无忧)招聘网站数据采集,通过selenium绕过网站反爬,可以采集全国各地数十万条招聘信息
本文介绍了一个使用Python和Selenium库实现的51job(前程无忧)招聘网站数据采集工具,该工具能够绕过网站的反爬机制,自动化登录、搜索并采集全国各地的招聘信息,将数据保存至CSV文件中。
179 0
|
7月前
|
数据采集 Web App开发 JavaScript
使用Selenium爬取目标网站被识别的解决之法
使用Selenium爬取目标网站被识别的解决之法
|
7月前
|
安全 测试技术 API
Selenium框架添加CONNECT以抓取https网站
Selenium框架添加CONNECT以抓取https网站
|
数据采集 前端开发 安全
如何避免Selenium爬虫被网站识破
如何避免Selenium爬虫被网站识破
|
数据采集 Web App开发 安全
别去送死了。Selenium 与 Puppeteer 能被网站探测的几十个特征
别去送死了。Selenium 与 Puppeteer 能被网站探测的几十个特征
333 0
|
数据采集 JavaScript 前端开发
Selenium+代理爬取需要模拟用户交互的网站
Selenium+代理爬取需要模拟用户交互的网站
|
数据采集 数据可视化 JavaScript
使用 Python/Selenium 抓取网站的 Power BI dashboard
Power BI可以帮助用户从不同来源的数据中提取信息,生成交互式报表和可视化仪表盘。Power BI dashboard是Power BI的一个重要组成部分,它可以将来自多个数据源的数据整合到一个面板上,为用户提供全面的数据洞察。通过Power BI dashboard,用户可以方便地查看关键指标的实时数据、分析趋势变化和发现隐藏在数据中的模式和趋势。重点是Power BI dashboard是使用 JavaScript 呈现的,因此在尝试抓取任何数据之前,需要确保页面已完成加载。可以使用 WebDriverWait 类等待某个元素出现在页面上,这是页面加载完成的良好指示。
271 0
|
Web App开发 前端开发 测试技术
从零开始Web自动化(三):通过selenium,9行代码实现打字网站的自动打字
从零开始Web自动化(三):通过selenium,9行代码实现打字网站的自动打字
290 0
从零开始Web自动化(三):通过selenium,9行代码实现打字网站的自动打字

热门文章

最新文章