Python爬虫抓取图片,网址从文件中读取-阿里云开发者社区

开发者社区> thinkgamer.cn> 正文

Python爬虫抓取图片,网址从文件中读取

简介: 利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片 import urllib import re import os           ...
+关注继续查看

利用python抓取网络图片的步骤:

1.根据给定的网址获取网页源代码

2.利用正则表达式把源代码中的图片地址过滤出来

3.根据过滤出来的图片地址下载网络图片

import urllib
import re
import os
                                                            #urllib,re,os均为Python模块
def gethtml(outline):
page = urllib.urlopen(outline)              #抓取网页内容获得图片链接
html = page.read()
return html

def getimg(html):                                #下载图片保存在同目录下的pictures文件夹下
reg=r'src="(.+?\.jpg)" pic_ext'
imgre=re.compile(reg)
imglist=imgre.findall(html)
if not imglist:
print "not found"
else:
filepath=os.getcwd() +'\pictures'
print filepath
if os.path.exists(filepath) is False:
os.mkdir(filepath)
global x
for imgurl in imglist:
temp = filepath + '\%s.jpg' % x
print imgurl
urllib.urlretrieve(imgurl,temp)
x=x+1

x = 0
fp =file("img_path.txt")                          #所有网址都放在这个文件里
while True:
outline = fp.readline().strip('\n')
if len(outline)==0:
break
print outline
html=gethtml(outline)
getimg(html)

fp.close()

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
itext在rtf文档中添加图片(略)
itext version 2.1.7 itext操作rtf文档其实还是挺方便的。 itext为图片操作提供了一个类com.lowagie.text.Image,使用方法如下: static Image createImage(URL path) { Image image;try { image = Image.
654 0
教程,Python图片转字符堆叠图
Python 图片转字符画 一、实验说明 1. 环境登录 无需密码自动登录, 2. 环境介绍 本实验环境采用带桌面的UbuntuLinux环境,实验中会用到桌面上的程序: LX终端(LXTerminal):Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令 GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器 3. 环境使用 使用GVim编辑器输入实验所需的代码及文件,使用LX终端(LXTerminal)运行所需命令进行操作。
1000 0
MFC 打开文件夹读取图片
 主要使用CFileDialog类实现: // void ReadSource() void ReadSource() { CFileDialog ccFileDlg(TRUE, NULL, NULL, OFN_HIDEREADONLY|OFN_OVERWRITEPROMPT|OFN_ALLOWMULTISELECT, _T("Image files(*.png; *.jp
1094 0
python爬虫之图片下载APP 2.0
上次讲到利用python进行搜索并下载图片,今天更新一下,我们知道,https://www.pexels.com/ 这个网站搜索图片需要英文,但有些人不太会使用英文,想搜索什么东西需要先去翻译了才能搜索,今天调用API store里面的斯必克API进...
833 0
C# 使用FileUpload控件上传图片,将文件转换成二进制进行存储与读取
状况描述:   需要上传文件,但是不想要保存到实体路径下,便可以用该功能来实现。   效果图:      点击【Upload】按钮,上传文件到数据库;   点击【Preview】,预览文件;   具体实现:   前台: 1 2 3 4 : 5 ...
1661 0
JS导出PDF插件(支持中文、图片使用路径)
原文:JS导出PDF插件(支持中文、图片使用路径) 在WEB上想做一个导出PDF的功能,发现jsPDF比较多人推荐,遗憾的是不支持中文,最后找到pdfmake,很好地解决了此问题。它的效果可以先到http://pdfmake.org/playground.html查看。
1700 0
Python爬虫入门教程 6-100 蜂鸟网图片爬取之一
1. 蜂鸟网图片简介 国庆假日结束了,新的工作又开始了,今天我们继续爬取一个网站,这个网站为 http://image.fengniao.com/ ,蜂鸟一个摄影大牛聚集的地方,本教程请用来学习,不要用于商业目的,不出意外,蜂鸟是有版权保护的网站。
1387 0
+关注
thinkgamer.cn
wechat 搜索【数据与算法联盟】,专注于云计算和算法,目前就职于京东
121
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载