手把手教你写一个图片爬虫

简介: 本文介绍了一个实用的百度图片爬虫工具,仅需百余行 Python 代码即可实现自动搜索与下载图片功能,适用于需要批量获取图片素材的场景。爬虫包含请求处理、JSON 解析、文件操作等关键技术,并详细解析了其设计与实现原理,适合学习与扩展。

最近想收集一些特定主题的图片素材,手动一张张下载实在太费时间了。作为一个懒人程序员,我决定写个爬虫来自动完成这个任务。今天就跟大家分享这个实用的百度图片爬虫,它能自动搜索并下载你想要的任何图片。

这个爬虫虽然只有100多行代码,但包含了请求处理、JSON解析、文件操作等实用技巧。我会详细解释每个部分的实现思路,让你不仅能使用这个爬虫,还能真正理解它的工作原理。

爬虫整体设计

我们先来看看这个爬虫的总体结构:

代码语言:python

代码运行次数:0

运行

AI代码解释

class BaiduImageSpider(object):
    def __init__(self):
        # 初始化代码
    
    def create_directory(self, name):
        # 创建保存图片的文件夹
    
    def get_image_link(self, url):
        # 获取图片链接
    
    def save_image(self, img_link, filename):
        # 下载并保存图片
    
    def run(self):
        # 主运行逻辑

这个类包含了爬虫的所有功能,结构清晰,每个方法负责一个具体的任务。接下来我会详细讲解每个部分的实现。

初始化设置

代码语言:python

代码运行次数:0

运行

AI代码解释

def __init__(self):
    self.json_count = 0
    self.url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&queryWord={}&word={}&pn={}&rn=30'
    self.directory = r"C:\价值一个亿\python-mini-projects\projects\baidutupian\{}"
    self.header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Accept-Language': 'en-US,en;q=0.5',
        'Referer': 'https://image.baidu.com'
    }
    self.image_counter = 0  # 新增全局图片计数器

初始化方法中,我们设置了几个重要的变量:

  1. json_count:控制要下载多少组图片(每组30张)
  2. url:百度图片的API接口地址,使用格式化字符串方便后续替换关键词
  3. directory:图片保存路径,使用{}作为占位符方便后续替换
  4. header:请求头,模拟浏览器访问,避免被反爬
  5. image_counter:图片计数器,用于生成唯一的文件名

创建保存目录

代码语言:python

代码运行次数:0

运行

AI代码解释

def create_directory(self, name):
    self.directory = self.directory.format(name)
    os.makedirs(self.directory, exist_ok=True)
    self.directory += r'\{}'

这个方法负责创建保存图片的文件夹:

  1. 使用format方法将搜索关键词插入到路径中
  2. os.makedirs创建目录,exist_ok=True表示如果目录已存在也不报错
  3. 最后在路径后添加\{},方便后续格式化文件名

获取图片链接

代码语言:python

代码运行次数:0

运行

AI代码解释

def get_image_link(self, url):
    try:
        response = requests.get(
            url,
            headers=self.header,
            proxies={"http": None, "https": None},
            timeout=10
        )
        response.raise_for_status()
        return [item['thumbURL'] for item in response.json().get('data', []) if 'thumbURL' in item]
    except Exception as e:
        print(f"获取图片链接失败: {e}")
        return []

这是爬虫的核心方法之一,负责从百度API获取图片链接:

  1. 使用requests.get发送HTTP请求
  2. 设置了请求头和代理(这里禁用了代理)
  3. 添加了10秒超时设置
  4. raise_for_status()会在请求失败时抛出异常
  5. 使用列表推导式从返回的JSON中提取所有thumbURL字段
  6. 添加了异常处理,失败时打印错误信息并返回空列表

下载并保存图片

代码语言:python

代码运行次数:0

运行

AI代码解释

def save_image(self, img_link, filename):
    try:
        res = requests.get(
            img_link,
            headers=self.header,
            proxies={"http": None, "https": None},
            timeout=10
        )
        res.raise_for_status()
        
        with open(filename, "wb") as f:
            f.write(res.content)
            print(f"成功保存: {filename}")
    except Exception as e:
        print(f"下载图片失败: {e}")

这个方法负责下载并保存图片:

  1. 同样使用requests.get获取图片内容
  2. 以二进制写入模式(wb)打开文件
  3. 直接将响应内容写入文件
  4. 添加了异常处理,下载失败时打印错误信息

主运行逻辑

代码语言:python

代码运行次数:0

运行

AI代码解释

def run(self):
    searchName = input("查询内容:")
    searchName_parse = parse.quote(searchName)
    self.create_directory(searchName)
    self.image_counter = 0  # 重置计数器
    for index in range(self.json_count):
        pn = index * 30
        request_url = self.url.format(searchName_parse, searchName_parse, str(pn))
        links = self.get_image_link(request_url)
        for link in links:
            filename = os.path.join(self.directory.format(f"{self.image_counter}.jpg"))  # 使用全局计数器
            self.save_image(link, filename)
            self.image_counter += 1  # 计数器递增
            time.sleep(1)
    print(f"{searchName}----图像下载完成--------->")

这是爬虫的主控制流程:

  1. 获取用户输入的搜索关键词
  2. 对关键词进行URL编码
  3. 创建保存目录
  4. 重置图片计数器
  5. 循环获取多组图片(每组30张)
  6. 构建请求URL,pn参数控制分页
  7. 获取图片链接列表
  8. 逐个下载图片,文件名使用递增的数字
  9. 每次下载后暂停1秒,避免请求过于频繁
  10. 完成后打印提示信息

扩展思路

这个基础爬虫还可以进一步扩展:

  1. 支持更多搜索引擎:除了百度,还可以添加谷歌、必应等图片搜索的支持
  2. 图片筛选:根据大小、格式、颜色等条件筛选图片
  3. 去重功能:使用哈希值检查避免下载重复图片
  4. 断点续传:记录已下载的图片,程序中断后可以从中断处继续
  5. GUI界面:使用PyQt或Tkinter添加图形界面,更方便非技术人员使用

完整代码

代码语言:python

代码运行次数:0

运行

AI代码解释

import requests
import json
from urllib import parse
import os
import time
class BaiduImageSpider(object):
    def __init__(self):
        self.json_count = 0
        self.url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&queryWord={}&word={}&pn={}&rn=30'
        self.directory = r"C:\价值一个亿\python-mini-projects\projects\baidutupian\{}"
        self.header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Accept-Language': 'en-US,en;q=0.5',
            'Referer': 'https://image.baidu.com'
        }
        self.image_counter = 0  # 新增全局图片计数器
    def create_directory(self, name):
        self.directory = self.directory.format(name)
        os.makedirs(self.directory, exist_ok=True)
        self.directory += r'\{}'
    def get_image_link(self, url):
        try:
            response = requests.get(
                url,
                headers=self.header,
                proxies={"http": None, "https": None},
                timeout=10
            )
            response.raise_for_status()
            return [item['thumbURL'] for item in response.json().get('data', []) if 'thumbURL' in item]
        except Exception as e:
            print(f"获取图片链接失败: {e}")
            return []
    def save_image(self, img_link, filename):
        try:
            res = requests.get(
                img_link,
                headers=self.header,
                proxies={"http": None, "https": None},
                timeout=10
            )
            res.raise_for_status()
            
            with open(filename, "wb") as f:
                f.write(res.content)
                print(f"成功保存: {filename}")
        except Exception as e:
            print(f"下载图片失败: {e}")
    def run(self):
        searchName = input("查询内容:")
        searchName_parse = parse.quote(searchName)
        self.create_directory(searchName)
        self.image_counter = 0  # 重置计数器
        for index in range(self.json_count):
            pn = index * 30
            request_url = self.url.format(searchName_parse, searchName_parse, str(pn))
            links = self.get_image_link(request_url)
            for link in links:
                filename = os.path.join(self.directory.format(f"{self.image_counter}.jpg"))  # 使用全局计数器
                self.save_image(link, filename)
                self.image_counter += 1  # 计数器递增
                time.sleep(1)
        print(f"{searchName}----图像下载完成--------->")
if __name__ == '__main__':
    spider = BaiduImageSpider()
    spider.json_count = 10  # 下载10组图片
    spider.run()

使用说明

  1. 安装依赖:pip install requests
  2. 运行方式:
  • 直接运行:tupian.py
  • 或者导入使用:

代码语言:python

代码运行次数:0

运行

AI代码解释

if __name__ == '__main__':
    spider = BaiduImageSpider()
    spider.json_count = 10  # 下载10组图片
    spider.run()
  1. 创建爬虫实例
  2. 设置json_count决定下载多少组图片(每组30张)
  3. 调用run()方法开始爬取

运行后会提示输入搜索关键词,然后就会自动下载图片到指定目录。

高级技巧

  1. 代理设置:如果需要使用代理,可以修改请求方法:

代码语言:python

代码运行次数:0

运行

AI代码解释

proxies = {
    'http': 'http://your.proxy:port',
    'https': 'http://your.proxy:port'
}
response = requests.get(url, headers=self.header, proxies=proxies)
  1. 多线程下载:可以使用concurrent.futures实现:

代码语言:python

代码运行次数:0

运行

AI代码解释

from concurrent.futures import ThreadPoolExecutor
with ThreadPoolExecutor(max_workers=5) as executor:
    executor.map(self.save_image, links)
  1. 断点续传:记录已下载的URL,程序重启后跳过已下载的图片。

注意事项

  1. 请遵守百度的robots.txt协议,合理控制请求频率
  2. 不要用于商业用途,尊重图片版权
  3. 建议设置合理的json_count值,避免请求过多被封IP
  4. 下载失败时,程序会自动重试,但大量失败可能是触发了反爬机制

这个改进版的百度图片爬虫具有更好的稳定性、更详细的日志输出和更友好的使用体验。你可以根据自己的需求进一步扩展功能,比如添加图片去重、自动分类等功能。

相关文章
|
1月前
|
人工智能 JavaScript 前端开发
dify工作流+deepseek开启联网搜索
本内容介绍了如何创建一个包含网络搜索和大模型处理的工作流应用,通过编排开始节点、Web搜索API、LLM模型及结束节点,实现根据用户提问自动检索并返回答案的功能。示例展示了查询“今天日期是多少”的完整流程及各节点数据处理情况。
|
1月前
|
人工智能 自然语言处理 Linux
如何获取 OpenAI API 密钥
本教程详细介绍如何注册 OpenAI 账户、获取 API 密钥并部署 GPT-4 模型。内容涵盖访问官网、登录注册、创建密钥、配置 Python 环境及调用 API 的完整流程,并提供示例代码帮助开发者快速上手。
|
2月前
|
数据采集 数据可视化 JavaScript
用 通义灵码和 PyQt5 爬虫智能体轻松爬取掘金,自动化采集技术文章和数据
本文介绍了如何利用智能开发工具通义灵码和Python的PyQt5框架,构建一个自动化爬取掘金网站技术文章和数据的智能爬虫系统。通过通义灵码提高代码编写效率,使用PyQt5创建可视化界面,实现对爬虫任务的动态控制与管理。同时,还讲解了应对反爬机制、动态内容加载及数据清洗等关键技术点,帮助开发者高效获取并处理网络信息。
|
1月前
|
存储 人工智能 数据可视化
操作手册-0代码搭建web网站AI助手
学习制作一个“公司Web网站Ai助手”,这个助手可以通过解读知识库中的公司报告信息,来回答相关问题。
|
1月前
|
人工智能 自然语言处理 IDE
全球首个产设研一体AI工程师的真实使用报告
本文分享了使用CodeBuddy开发个人博客系统的全过程,涵盖需求分析、设计还原、实时协作、后端集成及部署上线,全面体验其AI辅助开发能力与全栈工具链。
|
1月前
|
应用服务中间件 网络安全 nginx
Docker部署 Alist
这里帮你整理一份使用 Docker 部署 Alist(一个开源的文件列表和管理工具)的详细步骤和示例,方便你快速启动。
|
1月前
|
传感器 人工智能 运维
如何在AR运维巡检中导入AI识别方案,达到智慧巡检目的
在工业运维巡检中,传统依赖人工的方式易出错且效率低。通过融合AR与AI技术,构建智慧巡检闭环,实现设备状态自动识别、预测性维护与高效协同。本文从场景锚定、知识沉淀、交互优化、反馈闭环、模型选型五大维度,解析AI识别方案的落地路径,助力工业智能化转型。
|
1月前
|
机器学习/深度学习 JSON API
淘宝图片搜索相似商品API响应数据解析
淘宝拍立淘API是基于深度学习的图像搜索接口,支持上传图片查找相似商品,适用于电商导购、比价、时尚搭配等场景。提供多格式支持、高精度搜索结果,返回JSON格式数据,附Python调用示例,便于快速集成。
|
1月前
|
数据采集 机器学习/深度学习 人工智能
从杂乱数据到智能洞察:2025年竞品分析工具的"场景化革命"
本报告全景解析竞品分析工具的技术演进与智能应用,涵盖四代技术变迁、核心架构、主流工具解析及实施方法论,助力企业构建数据驱动的竞争优势。
223 0

热门文章

最新文章