一个爬取百度图片的脚本

简介: 一个爬取百度图片的脚本

以下是一个使用Python编写的爬取百度图片的脚本。该脚本可以根据关键词爬取指定页数的图片,并将图片保存在指定目录下。

import requests
from bs4 import BeautifulSoup
import os

# 输入关键词和开始/结束页数
word = input("请输入关键词:")
begin_page_num = int(input("请输入开始页数:"))
end_page_num = int(input("请输入结束页数:"))

# 爬取图片的函数
def get_image_urls(word, page_num):
    # 构造搜索链接
    url = f"https://www.baidu.com/s?wd={word}&pn={page_num*100}"

    # 发送请求并获取响应内容
    response = requests.get(url)

    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(response.text, "html.parser")

    # 获取所有图片链接
    image_urls = []
    for img in soup.find_all("img"):
        image_urls.append(img.get("src"))

    return image_urls

# 保存图片的函数
def save_image(image_url, save_path):
    # 发送请求并获取图片内容
    response = requests.get(image_url)

    # 将图片保存到指定目录
    save_path = os.path.join(save_path, os.path.basename(image_url))
    with open(save_path, "wb") as f:
        f.write(response.content)

# 主程序
if __name__ == "__main__":
    # 创建保存图片的目录
    save_path = os.path.join(os.getcwd(), word)
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    # 循环爬取指定页数的图片
    for page_num in range(begin_page_num, end_page_num+1):
        # 获取当前页的图片链接
        image_urls = get_image_urls(word, page_num)

        # 循环保存图片
        for image_url in image_urls:
            save_image(image_url, save_path)

使用该脚本时,需要将关键词、开始页数和结束页数输入到脚本中。脚本会根据输入的关键词爬取指定页数的图片,并将图片保存在指定目录下。

目录
相关文章
|
Android开发
【原理篇】WebView 实现嵌套滑动,丝滑般实现吸顶效果,完美兼容 X6 webview(二)
【原理篇】WebView 实现嵌套滑动,丝滑般实现吸顶效果,完美兼容 X6 webview
|
供应链 前端开发 算法
技术人应该知道的电商运营小知识(上)
技术人应该知道的电商运营小知识(上)
733 0
|
2月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
357 121
|
10月前
|
机器学习/深度学习 存储 算法
DeepSeek元学习(Meta-Learning)基础与实践
元学习(Meta-Learning),又称“学会学习”,旨在通过少量数据或训练步骤使模型快速适应新任务。本文介绍如何使用DeepSeek构建和训练元学习模型,重点讲解基于优化的元学习方法MAML。我们从定义任务生成器、实现MAML算法到训练模型和快速适应新任务,提供了详细的代码示例和常见问题解决方案。通过本文,读者可以掌握元学习的基础与实践技巧,利用DeepSeek高效构建元学习模型。
|
机器学习/深度学习 存储 数据可视化
谷歌的时间序列预测的基础模型TimesFM详解和对比测试
在本文中,我们将介绍模型架构、训练,并进行实际预测案例研究。将对TimesFM的预测能力进行分析,并将该模型与统计和机器学习模型进行对比。
570 2
WK
|
索引 Python
Python占位符
在Python中,字符串格式化常用占位符插入变量值。主要方法有:1) 百分号 (%) 格式化,使用 %s、%d 等;2) str.format() 方法,使用 {} 和索引/关键字参数;3) F-strings,从Python 3.6开始,前缀 f 或 F,更简洁;4) Template 字符串,使用 $ 符号;5) format_map() 方法,使用字典参数。每种方法各有优缺点,适用于不同场景。
WK
485 3
|
运维 监控 前端开发
微服务灰度发布的底层原理是什么?
微服务灰度发布的底层原理是什么?
226 1
|
缓存 NoSQL Java
基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖微信小程序端(十一)
基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖微信小程序端(十一)
|
Unix 编译器 Shell
CMake构建Makefile深度解析:从底层原理到复杂项目(一)
CMake构建Makefile深度解析:从底层原理到复杂项目
1686 0