爬取网络图片

简介: 爬取网络图片
# -*- coding:utf8 -*-
import requests
import re
from urllib import parse
import os
class BaiduImageSpider(object):
    def __init__(self):
        self.url = 'https://image.baidu.com/search/flip?tn=baiduimage&word={}'
        self.headers = {
   'User-Agent':'Mozilla/4.0'}
    # 获取图片
    def get_image(self,url,word):
        #使用 requests模块得到响应对象
        res= requests.get(url,headers=self.headers)
        # 更改编码格式
        res.encoding="utf-8"
        # 得到html网页
        html=res.text
        print(html)
        #正则解析
        pattern = re.compile('"hoverURL":"(.*?)"',re.S)
        img_link_list = pattern.findall(html)
        #存储图片的url链接 
        print(img_link_list)
        # 创建目录,用于保存图片
        directory = 'C:/Users/Administrator/Desktop/image/{}/'.format(word)
        # 如果目录不存在则创建,此方法常用
        if not os.path.exists(directory):
            os.makedirs(directory)

        #添加计数 
        i = 1
        for img_link in img_link_list:
            filename = '{}{}_{}.jpg'.format(directory, word, i)
            self.save_image(img_link,filename)
            i += 1
    #下载图片
    def save_image(self,img_link,filename):
        html = requests.get(url=img_link,headers=self.headers).content
        with open(filename,'wb') as f:
            f.write(html)
        print(filename,'下载成功')
    # 入口函数 
    def run(self):
        word = input("您想要谁的照片?")
        word_parse = parse.quote(word)
        url = self.url.format(word_parse)
        self.get_image(url,word)
if __name__ == '__main__':
    spider = BaiduImageSpider()
    spider.run()
目录
相关文章
|
3月前
|
缓存 人工智能 监控
当大模型开始“碎碎念”:聊聊大模型日志分析与调优系统是怎么设计的
当大模型开始“碎碎念”:聊聊大模型日志分析与调优系统是怎么设计的
432 3
|
9月前
|
人工智能 机器人
超越基础问答:用RAG技术打造“有据可循”的智能助手
超越基础问答:用RAG技术打造“有据可循”的智能助手
530 99
|
5月前
|
存储 弹性计算 应用服务中间件
2026年阿里云轻量应用服务器测评、选型指南及常见问题解答
阿里云轻量应用服务器是面向轻量至中负载业务设计的集成化云服务,核心优势在于整合计算、存储、网络资源,预装常用应用镜像,简化配置流程,同时标配200M峰值带宽且不限流量,兼顾易用性与高带宽特性。相比传统ECS云服务器,它无需手动拆分资源配置,开箱即用,更适合个人开发者、小微团队及中小企业的轻量业务需求。以下从规格族分类、核心配置、实测性能、价格体系、场景适配及避坑指南等维度,用通俗语言拆解其核心信息,附详细表格对比,帮助用户判断是否值得入手及如何精准选型。
1022 0
|
6月前
|
缓存 前端开发 API
Python 开发进阶:从初级到全栈工程师的能力提升路径
本文系统梳理了Python开发者从初级到全栈的进阶路径,涵盖框架深度应用、性能优化、架构设计、容器化部署及DevOps实践。通过分阶段技能升级与真实项目落地,助力开发者突破“脚本思维”,构建全链路工程能力,实现从“会编码”到“能交付完整系统”的质变跨越。(238字)
|
6月前
|
运维 监控 安全
拆解大厂标准测试流程:从需求到上线的全链路质量守护指南
大厂标准测试流程的核心是“全链路质量管控”,从需求阶段开始,通过标准化的流程、规范化的文档、高效的工具链,确保产品质量在每个环节都得到有效保障。其底层逻辑是“预防为主、早期发现、快速闭环”,通过单元测试、接口测试等早期测试手段,减少后期缺陷修复成本;通过严格的缺陷管理和回归测试,确保缺陷闭环且不引入新问题;通过上线前的多轮验证和上线后的实时监控,降低上线风险。
801 2
|
传感器 人工智能 自然语言处理
通义灵码新增Inline Chat能力,代码问题即时提问
本次更新,通义灵码上线行间会话(Inline Chat)能力,支持开发者在代码编辑器区域进行对话,开发者可以通过自然语言对话的方式进行单个文件内的代码修改或进行即时提问。
|
6月前
|
机器学习/深度学习 存储 搜索推荐
Python自动整理音乐文件:按艺术家和专辑分类歌曲
本文介绍如何用Python自动化整理杂乱音乐文件,通过mutagen等库读取MP3、FLAC等格式的元数据,按艺术家和专辑智能分类,支持多线程加速、图形界面及增量处理,大幅提升效率,500首歌曲2分钟完成,准确率超99%。
330 0
|
6月前
|
监控 供应链 搜索推荐
巧用淘宝API,精准把握消费者需求,销量飙升!
在电商竞争中,淘宝API是洞察消费者需求的关键工具。通过调用商品、交易、评价、用户画像等数据接口,实现选品优化、精准营销、库存管理与竞品分析,推动运营从“经验驱动”转向“数据驱动”,助力销量飞跃。合规使用API,提升效率,抢占市场先机。(238字)
|
数据采集 存储 监控
实战案例:采集 51job 企业招聘信息
本文基于Feapder框架,从零开始搭建企业级招聘信息爬虫管道。内容涵盖基础概念(数据管道与Feapder特点)、生动比喻(快递系统类比爬虫流程)、技术场景(代理IP、Cookie管理)及实战案例(采集51job岗位信息并分类存储)。通过完整代码示例,展示如何配置代理、自定义中间件及Pipeline。无论产品经理还是学生,均可轻松上手,构建高效稳定的爬虫系统。
753 10
实战案例:采集 51job 企业招聘信息