python抓取网页图片

简介:
# -*- coding: utf-8 -*-  
#---------------------------------------  
#   程序:网页图片抓取
#   作者:lqf  
#   日期:2013-08-10  
#   语言:Python 2.7  
#   功能:抓取网页jpg链接图片
#---------------------------------------  
import re
import string
import sys
import os
import urllib

url="http://tieba.baidu.com/p/2521298181"#这个是某贴吧地址
imgcontent=urllib.urlopen(url).read()#抓取网页内容
urllist=re.findall(r'src="(http.+?\.jpg)"',imgcontent,re.I)#提取图片链接
if not urllist:
	print 'not found...'
else:
	#下载图片,保存在当前目录的pythonimg文件夹下
	filepath=os.getcwd()+'\pythonimg'
	if os.path.exists(filepath) is False:
		os.mkdir(filepath)
	x=1
	print u'爬虫准备就绪...'
	for imgurl in urllist:
		temp= filepath + '\%s.jpg' % x
		print u'正在下载第%s张图片' % x
		print imgurl
		urllib.urlretrieve(imgurl,temp)
		x+=1
	print u'图片下载完毕,保存路径为'+filepath


目录
打赏
0
0
0
0
7
分享
相关文章
Python爬虫与代理IP:高效抓取数据的实战指南
在数据驱动的时代,网络爬虫是获取信息的重要工具。本文详解如何用Python结合代理IP抓取数据:从基础概念(爬虫原理与代理作用)到环境搭建(核心库与代理选择),再到实战步骤(单线程、多线程及Scrapy框架应用)。同时探讨反爬策略、数据处理与存储,并强调伦理与法律边界。最后分享性能优化技巧,助您高效抓取公开数据,实现技术与伦理的平衡。
22 4
Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势
小红书作为社交电商的重要平台,其笔记评论蕴含丰富市场洞察与用户反馈。本文介绍的小红书笔记评论API,可获取指定笔记的评论详情(如内容、点赞数等),支持分页与身份认证。开发者可通过HTTP请求提取数据,以JSON格式返回。附Python调用示例代码,帮助快速上手分析用户互动数据,优化品牌策略与用户体验。
如何避免Python爬虫重复抓取相同页面?
如何避免Python爬虫重复抓取相同页面?
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
155 1
抓取和分析JSON数据:使用Python构建数据处理管道
探索 DrissionPage: 强大的Python网页自动化工具
DrissionPage 是一个基于 Python 的网页自动化工具,结合了浏览器自动化的便利性和 requests 库的高效率。它提供三种页面对象:ChromiumPage、WebPage 和 SessionPage,分别适用于不同的使用场景,帮助开发者高效完成网页自动化任务。
471 4
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
73 4
用python给你写个简单的计算器功能网页啊
这张图片展示了阿里巴巴集团的组织架构图,涵盖了核心电商、云计算、数字媒体与娱乐、创新业务等主要板块,以及各板块下的具体业务单元和部门。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等