一个爬取百度图片的脚本

简介: 一个爬取百度图片的脚本

以下是一个使用Python编写的爬取百度图片的脚本。该脚本可以根据关键词爬取指定页数的图片,并将图片保存在指定目录下。

import requests
from bs4 import BeautifulSoup
import os

# 输入关键词和开始/结束页数
word = input("请输入关键词:")
begin_page_num = int(input("请输入开始页数:"))
end_page_num = int(input("请输入结束页数:"))

# 爬取图片的函数
def get_image_urls(word, page_num):
    # 构造搜索链接
    url = f"https://www.baidu.com/s?wd={word}&pn={page_num*100}"

    # 发送请求并获取响应内容
    response = requests.get(url)

    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(response.text, "html.parser")

    # 获取所有图片链接
    image_urls = []
    for img in soup.find_all("img"):
        image_urls.append(img.get("src"))

    return image_urls

# 保存图片的函数
def save_image(image_url, save_path):
    # 发送请求并获取图片内容
    response = requests.get(image_url)

    # 将图片保存到指定目录
    save_path = os.path.join(save_path, os.path.basename(image_url))
    with open(save_path, "wb") as f:
        f.write(response.content)

# 主程序
if __name__ == "__main__":
    # 创建保存图片的目录
    save_path = os.path.join(os.getcwd(), word)
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    # 循环爬取指定页数的图片
    for page_num in range(begin_page_num, end_page_num+1):
        # 获取当前页的图片链接
        image_urls = get_image_urls(word, page_num)

        # 循环保存图片
        for image_url in image_urls:
            save_image(image_url, save_path)

使用该脚本时,需要将关键词、开始页数和结束页数输入到脚本中。脚本会根据输入的关键词爬取指定页数的图片,并将图片保存在指定目录下。

目录
相关文章
|
3月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
134 0
|
3月前
|
数据采集 存储 JavaScript
Buzz库网络爬虫实例:快速爬取百度搜索实时热点
Buzz库网络爬虫实例:快速爬取百度搜索实时热点
|
11月前
|
Python
一个爬取百度图片的脚本
一个爬取百度图片的脚本
42 1
|
12月前
|
数据采集 Python
用python爬取百度上的特定图片
用python爬取百度上的特定图片
145 1
|
3月前
|
Web App开发 IDE 测试技术
实战练习:用airtest-selenium脚本爬取百度热搜标题
实战练习:用airtest-selenium脚本爬取百度热搜标题
|
开发工具 Python
python批量下载百度图片
python批量下载百度图片
152 0
|
数据采集 Python
用Python爬取百度贴吧中的图片
用Python爬取百度贴吧中的图片
180 0
用Python爬取百度贴吧中的图片
|
分布式计算 关系型数据库 MySQL
使用python+spark爬取百度热搜写入mysql
本次算是爬取的第一个demo,百度热搜只是用来测试,写入的mysql也肯定不是最优解,到后期应该会写入到hbase中,spark也大概会换成flink,不过目前还是spark+mysql
192 0
|
数据采集 JSON 数据格式
【PYTHON】——如何抓取百度图片到本地
本篇文章主要介绍一下如何抓取百度图片到本地, 从而实现快速找图的需求
301 0
【PYTHON】——如何抓取百度图片到本地
|
数据采集 JSON 前端开发
13、web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才...
2295 0