备案控制台

开发者社区大数据文章正文

爬虫正则之爬取糗事百科的照片

2024-09-26 63

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 爬虫正则之爬取糗事百科的照片

直接上代码：

import re
import requests
# 创建定长数字，作为一会名字
def creat_fivenum(num,n=5):
    for i in range(1,10):
        s=str(num)
        j=10**i
        if (int(num/j)==0):
            for a in range(1,6-i):
                s="0"+s
            return s

#爬取臭事百科
# https://www.qiushibaike.com/imgrank/
# 分析一下照片所在的区域
# <div class="thumb">
# <a href="/article/124066439" target="_blank">
# <img src="//pic.qiushibaike.com/system/pictures/12406/124066439/medium/NKSSOW6NS7WM1L6J.jpg" alt="糗事#124066439" class="illustration" width="100%" height="auto">
# </a>
# </div>
def downQiushiImg(endpage=13):
    """
    只需要传参，一共爬取多少页就行
    :param endpage:
    :return:
    """
    num = 1 # 初始化计数器
    for page in range(endpage):
        url = f"https://www.qiushibaike.com/imgrank/page/{page+1}/"
        res = requests.get(url, headers=headers)
        ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
        r = re.findall(ex, res.text, re.S)
        for i in r:
            url = "http:" + i
            print(url)
            res = requests.get(url, headers=headers)
            with open(f"D://糗事百科image/{creat_fivenum(num)}.png", "wb")as f:
                f.write(res.content)
            num = num + 1;
    print(f"爬取完毕，一共{num-1}个照片")
downQiushiImg()

View Code

注意：再次申明，正则用的不好，是因为你需要指定re.S

文章标签：

数据采集

关键词：

爬虫糗事百科

游客j4mujezz7vm7y

目录

相关文章

keitwotest

|

数据采集 Python

Python网络爬虫之爬取糗事百科案例

项目说明使用Python写网络爬虫之糗事百科示例使用工具 Python2.7.X、pycharm 使用方法在pycharm中创建一个ceshi.py文件，撰写代码，运行代码，查看运行结果操作原理 1.首先先了解正则表达式的使用方法，见：正则表达式 2.找到糗事百科的主页URL：http://www.qiushibaike.com/hot/page/1 可以看出来，链接中page/后面的数字就是对应的页码，记住这一点为编写程序做准备。

keitwotest

1213 0 0

技术小阿哥

|

数据采集 Python Windows

python3 爬虫之爬取糗事百科

技术小阿哥

903 0 0

海持Alvin

|

数据采集 Python Windows

python3爬虫(二)实战- 爬糗事百科

2017-3-09 代码如下. 必须加上head否则无法抓取. # -*- coding:utf-8 -*- import urllib.

海持Alvin

1079 0 0

土木林森

|

3月前

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

194 6 6

python编程狮

|

6月前

|

机器学习/深度学习数据采集数据可视化

基于爬虫和机器学习的招聘数据分析与可视化系统，python django框架，前端bootstrap，机器学习有八种带有可视化大屏和后台

本文介绍了一个基于Python Django框架和Bootstrap前端技术，集成了机器学习算法和数据可视化的招聘数据分析与可视化系统，该系统通过爬虫技术获取职位信息，并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析，提供了一个直观的可视化大屏和后台管理系统，以优化招聘策略并提升决策质量。

python编程狮

306 4 5

东方睿赢

|

7月前

|

数据采集存储 JSON

从零到一构建网络爬虫帝国：HTTP协议+Python requests库深度解析

【7月更文挑战第31天】在网络数据的海洋中，使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流，收集信息。HTTP请求包括请求行、头和体，响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。

东方睿赢

119 4 4

请看我回答~

|

6月前

|

数据采集存储搜索推荐

打造个性化网页爬虫：从零开始的Python教程

【8月更文挑战第31天】在数字信息的海洋中，网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航，用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有，一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码，更带你理解背后的逻辑，让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者，这篇文章都会为你打开一扇通往数据世界的新窗。

请看我回答~

77 0 0

beloved000

|

4月前

|

数据采集存储数据挖掘

深入探索 Python 爬虫：高级技术与实战应用

本文介绍了Python爬虫的高级技术，涵盖并发处理、反爬虫策略（如验证码识别与模拟登录）及数据存储与处理方法。通过asyncio库实现异步爬虫，提升效率；利用tesseract和requests库应对反爬措施；借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。

beloved000

249 66 66

小白学大数据

|

3月前

|

数据采集 Web App开发 JavaScript

爬虫策略规避：Python爬虫的浏览器自动化

爬虫策略规避：Python爬虫的浏览器自动化

小白学大数据

225 1 1

土木林森

|

3月前

|

数据采集前端开发中间件

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第26天】Python是一种强大的编程语言，在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架，为开发者提供了强大的工具集。本文通过实战案例，详细解析Scrapy框架的应用与技巧，并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。

土木林森

155 4 4

热门文章

最新文章

Python爬虫实战：股票分时数据抓取与存储

SurfGen爬虫：解析HTML与提取关键数据

深度解析：使用ChromeDriver和webdriver_manager实现无头浏览器爬虫

深入理解Docker：为你的爬虫项目提供隔离环境

Java爬虫获取微店店铺所有商品API接口设计与实现

Java爬虫获取微店快递费用item_fee API接口数据实现

深入剖析 Python 爬虫：淘宝商品详情数据抓取

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

Python爬虫：爱奇艺榜单数据的实时监控

Python爬虫：京东商品评论内容

深入剖析 Python 爬虫：淘宝商品详情数据抓取

Java爬虫获取微店快递费用item_fee API接口数据实现

Java爬虫获取微店店铺所有商品API接口设计与实现

Python爬虫实战：股票分时数据抓取与存储

SurfGen爬虫：解析HTML与提取关键数据

深度解析：使用ChromeDriver和webdriver_manager实现无头浏览器爬虫

深入理解Docker：为你的爬虫项目提供隔离环境

Python爬虫：京东商品评论内容

jsdom爬虫程序中eBay主页内容爬取的异步处理

Python爬虫与1688图片搜索API接口：深度解析与显著收益

相关课程

更多

Python爬虫实战

Python网络爬虫实战

相关电子书

更多

Python第五讲——关于爬虫如何做js逆向的思路

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月