❤️不到100行把流式热榜截屏合成一张?爬虫终极秘诀【建议收藏】❤️

简介: 爬虫如何应对流式加载页面,这100行代码请收藏!

前篇学委弄了一篇把网站拍照留存,发现截屏的页面是一个流式页面,就截了一部分怎么办?


所谓的流式加载的页面,页面高度是不断变长的,这种页面无法一次加载就获取到整个页面的真实高度!

身边有没有哪些流式加载的页面呢? 比如 CSDN的热榜 没跑了。


这种流式加载窗口就开打开水龙头一样,内容哗啦啦的展示出来,关掉了就不加载。


经常冲榜的朋友就知道,打开热榜,发现就几条Top 5,需要浏览器往下拉,才会继续动态加载更多内容出来。一直往下拉,慢慢拉整个热榜就出来了。


本文实现流程概括如下图:


image.png

第一个问题:这这个获取流式窗口高度的操作怎么实现呢?

爬虫怎么开始设置,在前一篇文章,请自行阅读。

下面直击重点,我们怎么样获取动态流式内容窗口的高度。

'''
雷学委应对流式页面的爬虫解决秘诀
核心代码:
'''
def resolve_height(driver, pageh_factor=5):
    js = "return action=document.body.scrollHeight"
    height = 0
    page_height = driver.execute_script(js)
    ref_pageh = int(page_height * pageh_factor)
    step = 150 
    max_count = 15 
    count = 0 
    while count < max_count and height < page_height:
        #scroll down to page bottom
        for i in range(height, ref_pageh, step):
            count+=1
            vh = i
            slowjs='window.scrollTo(0, {})'.format(vh)
            print('exec js: %s' % slowjs)
            driver.execute_script(slowjs)
            sleep(0.3)
        if i >= ref_pageh- step:
            print('not fully read')
            break
        height = page_height
        sleep(2)
        page_height = driver.execute_script(js)
    print("finish scroll")
    return page_height

代码不多哦。

核心思想

  1. 持续滚动学习窗口内容
  2. 然后直到一个页面不再加载或者页面加载到限定值
  3. 停止更新(因为有些流式页面是没有下限的,你只要一直拉下,总会看到新东西)

看看效果图:

image.png

'''
雷学委应对流式页面的爬虫解决秘诀
截屏的核心代码:
'''
def resolve_height(driver, pageh_factor=5):
    js = "return action=document.body.scrollHeight"
    height = 0
    page_height = driver.execute_script(js)
    ref_pageh = int(page_height * pageh_factor)
    step = 150 
    max_count = 15 
    count = 0 
    while count < max_count and height < page_height:
        #scroll down to page bottom
        for i in range(height, ref_pageh, step):
            count+=1
            vh = i
            slowjs='window.scrollTo(0, {})'.format(vh)
            print('[雷学委 Demo]exec js: %s' % slowjs)
            driver.execute_script(slowjs)
            sleep(0.3)
        if i >= ref_pageh- step:
            print('[雷学委 Demo]not fully read')
            break
        height = page_height
        sleep(2)
        page_height = driver.execute_script(js)
    print("finish scroll")
    return page_height
#获取窗口实际高度
page_height = resolve_height(driver)
print("[雷学委 Demo]page height : %s"%page_height)
sleep(5)
driver.execute_script('document.documentElement.scrollTop=0')
sleep(1)
driver.save_screenshot(img_path)
page_height = driver.execute_script('return document.documentElement.scrollHeight') # 页面高度
print("get accurate height : %s" % page_height)
if page_height > window_height:
   n = page_height // window_height #floor
   for i in range(n):
       driver.execute_script(f'document.documentElement.scrollTop={window_height*(i+1)};')
       sleep(1)
       driver.save_screenshot(f'./leixuewei_rank_{i}.png')

代码还是不多哦。

核心思想

  1. 持续滚动截屏窗口内容
  2. 保持为图片(带上下标记)

下面是中间截取的一个图片:

image.png

那么多个图怎么合成一张呢?

我们在代码项目目录中,可以看到这里生成了(如下图的)多张图片。总不能自己动手PS吧?

image.png

首先要理解图片是什么?

图片本质上就是一个2d的像素点的一个矩阵。

我们看到的每张图片,其实就是很多的像素分横向纵向排列,显示出来就是图片了。

好办,合并的思路有了,用numpy库直接来

我们拿上面的代码改造一下:

'''
雷学委应对流式页面的爬虫解决秘诀
截屏的核心代码:
'''
import numpy as np
if page_height > window_height:
   n = page_height // window_height #floor
   base_matrix = np.atleast_2d(Image.open(img_path))
   for i in range(n):
       driver.execute_script(f'document.documentElement.scrollTop={window_height*(i+1)};')
       sleep(1)
       driver.save_screenshot(f'./leixuewei_rank_{i}.png')
       delta_matrix = np.atleast_2d(Image.open(f'./leixuewei_rank_{i}.png'))
       #concentrate the image
       base_matrix = np.append(base_matrix, delta_matrix, axis=0) 
   Image.fromarray(base_matrix).save('./leixuewei_rank_full.png')

牛比吧,就加一点点代码,关键是思路。


代码解析

这里其实就是在截屏循环中不断的吧图片转换为2d矩阵。


然后把多个2d矩阵再追加,这样横向长度不变,但纵向内容追加,形成了一张完整的图片了。


这里就是热榜列表的全屏截图展示了。


总结

整个思路还是很流畅的,代码不到一百行,但是思路不对就做不了, 主要用了下面几个库。


selenium
numpy
Pillow

最后使用爬虫必须谨慎,不要当做儿戏去爬机构网站。你学习也不能拿严肃的网络来刷,这个行为迟早会让你吃上LAO饭!

本文仅作展示目的,对于演示网站有任何异议,请告知修改。

目录
相关文章
|
6月前
|
机器学习/深度学习 语音技术 开发工具
【独家秘籍】揭秘!如何用阿里云TTS魔法般将文字瞬间变成天籁之音,让你的作品开口说话,震撼人心!
【8月更文挑战第15天】通过阿里云语音合成服务(TTS),开发者可将文本转为自然语音,适用于有声阅读、客服等场景。首先注册并获取AccessKey ID/Secret,然后安装阿里云Python SDK。使用示例代码设置语音参数(如发音人xiaoyun、引擎wavenet),发送请求并保存生成的MP3文件。注意正确认证及异常处理,以确保应用稳定可靠。
465 0
|
4月前
|
存储 缓存 边缘计算
揭秘直播带货背后的黑科技:播放流程全解析!
大家好,我是小米,今天聊聊社区直播带货的技术细节。我们将探讨直播播放流程中的关键技术,包括 HTTP DASH 协议、POP(Point of Presence)缓存和一致性哈希算法等。通过这些技术,直播流能根据网络状况动态调整清晰度,保证流畅体验。POP 和 DC 的多层次缓存设计减少了延迟,提升了观看效果。无论是技术人员还是直播运营者,都能从中受益。希望通过本文,你能更好地理解直播背后的技术原理。
94 3
|
4月前
|
机器学习/深度学习 前端开发 JavaScript
230+本图灵编程高清文字版无水印电子书合集【制作不易,点赞收藏❤️】
今日精选,200余本图灵出版的高质量编程电子书,覆盖编程、系统架构、算法及机器学习等热门领域,助你全面提升技术能力。无论你是初学者还是资深开发者,都能从中找到适合自己的学习资源,从《Python编程:从入门到实践》到《深度学习入门》,每一本书都将是你技术成长道路上的良师益友,帮助你在瞬息万变的技术浪潮中站稳脚跟,稳步前行。
190 2
|
9月前
|
数据采集 Web App开发 开发者
探秘Python爬虫技术:王者荣耀英雄图片爬取
探秘Python爬虫技术:王者荣耀英雄图片爬取
|
容器
借助开源项目,又好又快的实现视频文件”剧情连拍(剧情截图)”功能
借助开源项目,又好又快的实现视频文件”剧情连拍(剧情截图)”功能
713 0
借助开源项目,又好又快的实现视频文件”剧情连拍(剧情截图)”功能
|
监控 算法 SEO
谷歌霸屏外推技术原理,谷歌留痕霸屏怎么做?
优化您的网站:对每个网站进行优化,包括关键字研究、元标记、内容优化和内部链接。
523 0
谷歌霸屏外推技术原理,谷歌留痕霸屏怎么做?
|
编解码 算法 前端开发
《移动端的真实感渲染-慎思》演讲视频 + 文字版
《移动端的真实感渲染-慎思》演讲视频 + 文字版
185 0
|
前端开发
#yyds干货盘点 前端歌谣的刷题之路-第八题-音频媒体标签属性
#yyds干货盘点 前端歌谣的刷题之路-第八题-音频媒体标签属性
106 0
#yyds干货盘点 前端歌谣的刷题之路-第八题-音频媒体标签属性
|
计算机视觉 Python

热门文章

最新文章