Python爬虫系列4-优化普通数据下载性能的速度

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 很多人在学习爬虫的时候,总是参照着书本中的内容或者是从网上学习的案例,但是那些案例你会,别人也会 ,如此怎么能提高我们的市场竞争力呢?Tony老师不服,于是,此篇文章顺利诞生;也是想让大家在学习的过程中真正的 **学以致用** 。

众所周知目前的互联网行业发展非常的激烈,在这个充满斗争的行业里,如果你想独树一帜,你想真正的在这里面有所作为,就必须得去折腾、去学习;而且是高效率的学习; 因为机会一定都是留给有准备的人的,但并不是说你想抓住就能抓的住的。需要我们付出很多精力和时间。

所以我们就需要不断提醒和逼迫自己去进步。因为过一个平凡无趣的人生实在太容易了,你可以不读书,不运动,不折腾。但是,人生最后悔的事情就是:我本可以。 💪

今天要抓取的目标是一个具有APP端的美图网站,为了方便大家的阅读及理解;整个代码的业务逻辑步骤我都已做了二次封装。

爬虫流程三部曲:

第一步:请求网络,获取服务器返回数据

第二步:处理数据,对获取到的数据进行解析,提取数据

第三步:将解析的内容进行存储

当我们确定好要抓取的网站目标时,按照传统方式大家也许直接就开始根据URL抓取数据下方数据了,但是今天咱们来玩儿点不一样的;
image.png

这里我在多次对网站测试的时候,发现本网站的数据是流动性的,什么意思呢?就是做了局部刷新的操作,会根据用户不断向下浏览的情况,不断的多次加载数据;当滑动至底端的时候,加载刷新了5次数据;这里引起了我的好奇

image.png

通过访问url,发现获取的是网站的原数据,它以json类型而存在
image.png

整理一下,发现其中几个字段很重要,以及图片的url也都在其中,如此,我就有了一个想法,既然数据是根据每一次的下滑而加载的,是不是我可以把url给动态的修改一下,当然这块属于前端知识,大家只需要知道可以这么做就行。事实证明是可以的。完全避开了大家通过selenium控制浏览器下滑刷新的办法。
image.png

首先这里我对url做了一次优化,我们发现,结构变了;
ps:因为数据太多就不展示了,有心的同学,可以尝试一下,不仅如此,我们发现网站的数据也更加有条理性,更加的清晰;给我的感觉也舒服了好多;

哈哈!可能是因为强迫症原因。。。不否认所有的程序员都有强迫症哈 😅

image.png

不过这样一来新的问题出现了;

我们所看到的网站url链接中是有中文存在的,那如果我直接填写一个中文可以吗?NO,这里我们需要对中文进行转码;Why ? 我们看一下这串字符 kw=%E8%B5%B5%E4%B8%BD%E9%A2%96

大家下意识的也许会认为它就是一串乱码,这里要纠正一下,实质上它不是乱码,它只是一个url编码,什么是url编码呢?其实从本质上讲就是一个ASCII码!大家也许奇怪了,什么情况,直接用中文它不香吗? 何必要换来换去的,其实这追溯到根源,很简单,因为计算机是老外发明的,所以人家根本不可能用中文去进行命名的;至此,相信大家应该也都能明白为什么了。

在了解完网站结构之后,二话不说,咱们先拿到数据再说,一切不以先拿到数据就去处理的行为都是耍流氓。 - 普门教育-Tony 😁

-实战

需要安装的库:
pip install requests

第一步:请求网络,获取数据

考虑到为了方便大家的阅读,所以在请求的时候我这里就直接给进行二次封装了。

import requests

# 通过 url 获取数据
def get_requests_page(url):
    # 请求网络 设置字符编码 将bytes进行转换
    page = requests.get(url).content.decode('utf-8')
    return page

第二步:解析并处理数据

处理数据的时候,我这里就不通过第三方的框架解析了,以一个最简单的str方式,给大家演示一遍。

除此之外也是可以通过别的方式进行解析,有心的同学可以自行尝试。

#第二步: 单个页面数据里通过查找字符串获取所有图片链接
def findall_in_page(page, startpart, endpart):
    all_strings = []
    #  向下查找 如果!=-1 就说明找到了
    while page.find(startpart, end) != -1:
        # 起始坐标 
        start = page.find(startpart, end) + len(startpart)
        # 结尾坐标 "
        end = page.find(endpart, start)
        # 切片
        string = page[start:end]
        all_strings.append(string)
    return all_strings

关键的地方我都通过注释的方式,给大家标注了,如果某地方不理解,可以在下方联系我进行咨询。

import urllib.parse

#第三步: 得到所有页面的 url ,分别得到各个数据
def pages_from_duitang(label):
    pages = []
    url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}&limit=1000'
    # 将中文转成 url 编码
    label = urllib.parse.quote(label)
    for index in range(0, 3600, 100):
        u = url.format(label, index)
        page = get_requests_page(u)
        pages.append(page)

image.png

#第四步: 获取所有页面的图片链接
def pic_urls_from_pages(pages):
    pic_urls = []
    for page in pages:
        urls = findall_in_page(page, 'path:"', '"')
        pic_urls.append(urls)
    return pic_urls

这里我们已经将所有需要的url全部解析出来了;至此,我们第二步的解析数据就完成了。
image.png

第三步:下载数据进行存储

#第五步: 通过 url 下载单张图片
def download_pics(url, name):
    r = requests.get(url)
    path = 'tony_pics/' + str(name) + '.jpg'
    with open(path, 'wb+') as file:
        file.write(r.content)

第四步:代码逻辑汇总、整合

# 第六步 : 总函数
def main(label):
    # 获取所有页面的数据
    pages = pages_from_duitang(label)
    # 获取所有图片的链接
    pic_urls = pic_urls_from_pages(pages)
    numbers = 0
    for url in pic_urls:
        numbers += 1
        print('正在下载第 {} 张图片'.format(numbers))
        download_pics(url, numbers)

第五步:效果展示


if __name__ == '__main__':
    main('赵丽颖')

普通数据下载速度

这里以下载数据时3秒计时为期限;可以看到数据已经下载至第24张图片。

image.png

接下来,核心点来了;我会对代码进行改造,在提高程序对数据下载的速度以外;还能对代码的性能进行优化。

这里我使用的方式是多线程;不否认除此之外还有更优的方案;大家可以自行尝试。

import threading

# 设置线程锁 
thread_lock = threading.BoundedSemaphore(value=10)
# 开启线程池
t = threading.Thread(target=download_pics, args=(url, numbers))
t.start()

优化之后的数据下载速度

运行效果的时间 这里以下载数据时3秒计时为期限;可以看到数据已经下载至第108张图片了。

这就是程序优化的魅力,所以大家在学习的过程中一定要有深度的学习,因为任何知识点如果大家只是学习了浅显的表面,是没有任何用处的。因为时间在变,互联网在变,我们若不想被淘汰只能去追赶;这就是互联网。。。

image.png

在这个浮躁的时代;竟然还有人能坚持篇篇原创;

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

支持原创。感谢!

相关文章
|
16天前
|
数据采集 存储 XML
Python爬虫定义入门知识
Python爬虫是用于自动化抓取互联网数据的程序。其基本概念包括爬虫、请求、响应和解析。常用库有Requests、BeautifulSoup、Scrapy和Selenium。工作流程包括发送请求、接收响应、解析数据和存储数据。注意事项包括遵守Robots协议、避免过度请求、处理异常和确保数据合法性。Python爬虫强大而灵活,但使用时需遵守法律法规。
|
17天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
18天前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
19天前
|
数据采集 存储 JSON
Python爬虫开发中的分析与方案制定
Python爬虫开发中的分析与方案制定
|
24天前
|
数据采集 JSON 测试技术
Python爬虫神器requests库的使用
在现代编程中,网络请求是必不可少的部分。本文详细介绍 Python 的 requests 库,一个功能强大且易用的 HTTP 请求库。内容涵盖安装、基本功能(如发送 GET 和 POST 请求、设置请求头、处理响应)、高级功能(如会话管理和文件上传)以及实际应用场景。通过本文,你将全面掌握 requests 库的使用方法。🚀🌟
42 7
|
19天前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
25 1
|
20天前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
21天前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
23天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
24天前
|
数据采集 存储 XML
Python实现网络爬虫自动化:从基础到实践
本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。
125 1