1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
|
import
re
import
requests
#启动两个模块,pycharm5.0.1里貌似不用特别启动os模块,也可以open#
html
=
requests.get(
"http://tu.xiaopi.com/tuku/3823.html"
)
AAA
=
html.text
#从目标网站上捕获源代码#
body
=
re.findall(
'<img src="(.*?)" alt='
,AAA,re.S)
#此时你肯定要先看一眼源代码,找到你需要找的东西,然后开始“夹逼定理”,还是那句话“夹”最重要,夹的准,基本你的爬虫就差不多了。#
i
=
0
for
each
in
body:
print
(
"正在打印"
+
str
(i)
+
"照片"
)
#这只是告诉你正在正常保存图片,起到进程计数作用#
pic
=
requests.get(each)
#用requests.get是正式捕获每一个图片的url网址#
fp
=
open
(
"e:/pythonaaa/b/study & test/"
+
str
(i)
+
".jpg"
,
"wb"
)
#将捕获下来的图片保存住,注意文件的/,这是一个很重要的细节!#
fp.write(pic.content)
i
=
i
+
1
fp.close()
|
======================================分割线=========================================
本人尚且没有做太多的爬虫实验,而且目前的水平也仅仅是抓点图片和漫画看看,还没到数据库那么高大上的级别,但是本人目前有一个心得:就是很多同学偷懒,在“夹逼”的时候,喜欢用<body>和</body>“大锤敲缝”,可是往往敲出来的都不对。这是因为不少网页的body有好几个。而且排列方式是<body1号><body2号></body这就不知道几号了></body依旧不知道记号>,所以往往会混乱,“夹逼”的时候还是抓明显的要素。
本文转自 苏幕遮618 51CTO博客,原文链接:http://blog.51cto.com/chenx1242/1729817