1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
|
#coding:utf-8
#爬虫基础,需要两个模块urllib和re
import
urllib,re
#获取网页源码
def
get_html():
page
=
urllib.urlopen(
'http://www.baidu.com'
)
html
=
read(page)
#用read方式读取网页源代码
return
html
x
=
0
#匹配url的图片地址,然后下载
def
getimages():
#编译成正则表达式对象,compile提高效率
image_re
=
re.
compile
(r
'src="(.*?)" class='
)
#找到re匹配的所有字串,通过列表返回
image_list
=
re.findall(image_re,html)
for
image_url
in
image_list:
print
image_url
global
x
#全局变量,后面可以跟上一个或多个变量
#将url定位到的html下载到本地
urllib.urlretrieve(image_url,
'/tmp/python/%s.jpg'
%
x)
|
本文转自 王家东哥 51CTO博客,原文链接:http://blog.51cto.com/xiaodongge/1890232