一个爬取百度图片的脚本

简介: 一个爬取百度图片的脚本

以下是一个使用Python编写的爬取百度图片的脚本。该脚本可以根据关键词爬取指定页数的图片,并将图片保存在指定目录下。

import requests
from bs4 import BeautifulSoup
import os

# 输入关键词和开始/结束页数
word = input("请输入关键词:")
begin_page_num = int(input("请输入开始页数:"))
end_page_num = int(input("请输入结束页数:"))

# 爬取图片的函数
def get_image_urls(word, page_num):
    # 构造搜索链接
    url = f"https://www.baidu.com/s?wd={word}&pn={page_num*100}"

    # 发送请求并获取响应内容
    response = requests.get(url)

    # 使用BeautifulSoup解析页面内容
    soup = BeautifulSoup(response.text, "html.parser")

    # 获取所有图片链接
    image_urls = []
    for img in soup.find_all("img"):
        image_urls.append(img.get("src"))

    return image_urls

# 保存图片的函数
def save_image(image_url, save_path):
    # 发送请求并获取图片内容
    response = requests.get(image_url)

    # 将图片保存到指定目录
    save_path = os.path.join(save_path, os.path.basename(image_url))
    with open(save_path, "wb") as f:
        f.write(response.content)

# 主程序
if __name__ == "__main__":
    # 创建保存图片的目录
    save_path = os.path.join(os.getcwd(), word)
    if not os.path.exists(save_path):
        os.makedirs(save_path)

    # 循环爬取指定页数的图片
    for page_num in range(begin_page_num, end_page_num+1):
        # 获取当前页的图片链接
        image_urls = get_image_urls(word, page_num)

        # 循环保存图片
        for image_url in image_urls:
            save_image(image_url, save_path)

使用该脚本时,需要将关键词、开始页数和结束页数输入到脚本中。脚本会根据输入的关键词爬取指定页数的图片,并将图片保存在指定目录下。

目录
相关文章
|
8月前
|
数据采集 Web App开发 JSON
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
本文以百度为实战案例演示使用WebScraper插件抓取页面内容保存到文件中。以及WebScraper用法【2月更文挑战第1天】
577 2
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
|
8月前
|
数据采集 Python
Python爬虫:实现爬取、下载网站数据的几种方法
Python爬虫:实现爬取、下载网站数据的几种方法
567 1
|
4月前
|
数据采集 JavaScript C#
C#图像爬虫实战:从Walmart网站下载图片
C#图像爬虫实战:从Walmart网站下载图片
|
Python
一个爬取百度图片的脚本
一个爬取百度图片的脚本
51 1
|
数据采集
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
329 0
|
人工智能 算法 搜索推荐
记一次爬取搜索引擎缩略图并保存到本地
✨✨欢迎订阅本专栏或者关注我,大家一起努力每天一题算法题✨✨❤️❤️❤️最后,希望我的这篇文章能对你的有所帮助!愿自己还有你在未来的日子,保持学习,保持进步,保持热爱,奔赴山海!❤️❤️❤️。.........
160 0
记一次爬取搜索引擎缩略图并保存到本地
|
数据采集 IDE 开发工具
python爬虫入门教程:爬取网页图片
python爬虫入门教程:爬取网页图片
349 0
|
数据采集 Python
|
Web App开发 数据采集 Python
Python爬虫入门教程 5-100 27270图片爬取
获取待爬取页面 今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的地方跟我说说。
1942 0
|
数据采集 Python
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
1.煎蛋网XXOO-写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。
2698 0