第一个网络爬虫程序

简介:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import  re
import  requests     #启动两个模块,pycharm5.0.1里貌似不用特别启动os模块,也可以open#
html = requests.get( "http://tu.xiaopi.com/tuku/3823.html" )
AAA = html.text      #从目标网站上捕获源代码#
body = re.findall( '<img src="(.*?)" alt=' ,AAA,re.S)
#此时你肯定要先看一眼源代码,找到你需要找的东西,然后开始“夹逼定理”,还是那句话“夹”最重要,夹的准,基本你的爬虫就差不多了。#
i = 0
for  each  in  body:
   print ( "正在打印" + str (i) + "照片" )     #这只是告诉你正在正常保存图片,起到进程计数作用#
   pic = requests.get(each)      
#用requests.get是正式捕获每一个图片的url网址#
   fp = open ( "e:/pythonaaa/b/study & test/" + str (i) + ".jpg" , "wb" )
#将捕获下来的图片保存住,注意文件的/,这是一个很重要的细节!#
   fp.write(pic.content)
   i = i + 1
   fp.close()

======================================分割线=========================================

本人尚且没有做太多的爬虫实验,而且目前的水平也仅仅是抓点图片和漫画看看,还没到数据库那么高大上的级别,但是本人目前有一个心得:就是很多同学偷懒,在“夹逼”的时候,喜欢用<body>和</body>“大锤敲缝”,可是往往敲出来的都不对。这是因为不少网页的body有好几个。而且排列方式是<body1号><body2号></body这就不知道几号了></body依旧不知道记号>,所以往往会混乱,“夹逼”的时候还是抓明显的要素。



 本文转自 苏幕遮618 51CTO博客,原文链接:http://blog.51cto.com/chenx1242/1729817




相关文章
用MASM32按Time Protocol(RFC868)协议编写网络对时程序中的一些有用的函数代码
用MASM32按Time Protocol(RFC868)协议编写网络对时程序中的一些有用的函数代码
|
25天前
|
网络协议 物联网 数据处理
C语言在网络通信程序实现中的应用,介绍了网络通信的基本概念、C语言的特点及其在网络通信中的优势
本文探讨了C语言在网络通信程序实现中的应用,介绍了网络通信的基本概念、C语言的特点及其在网络通信中的优势。文章详细讲解了使用C语言实现网络通信程序的基本步骤,包括TCP和UDP通信程序的实现,并讨论了关键技术、优化方法及未来发展趋势,旨在帮助读者掌握C语言在网络通信中的应用技巧。
36 2
|
4月前
|
数据采集 Web App开发 测试技术
如何避免反爬虫程序检测到爬虫行为?
这段内容介绍了几种避免被反爬虫程序检测的方法:通过调整请求频率并遵循网站规则来模拟自然访问;通过设置合理的User-Agent和其他请求头信息来伪装请求;利用代理IP和分布式架构来管理IP地址;以及采用Selenium等工具模拟人类的浏览行为,如随机点击和滚动页面,使爬虫行为更加逼真。这些技巧有助于降低被目标网站识别的风险。
|
6月前
|
机器学习/深度学习 存储 自然语言处理
程序与技术分享:DeepMemoryNetwork深度记忆网络
程序与技术分享:DeepMemoryNetwork深度记忆网络
|
3月前
|
数据采集 Python
微博爬虫程序的定时
微博爬虫程序的定时
34 1
|
2月前
|
安全 网络协议 IDE
使用Python编写网络扫描程序
使用Python编写网络扫描程序
54 0
|
4月前
|
存储 网络协议 安全
|
5月前
|
机器学习/深度学习 数据采集 自然语言处理
Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)
Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)
Python实现循环神经网络SimpleRNN、LSTM进行淘宝商品评论情感分析(含爬虫程序)
|
6月前
程序技术好文:计算机网络(九)——STP原理
程序技术好文:计算机网络(九)——STP原理
108 1
|
5月前
|
Windows
【计算机网络】已解决:“‘ping‘ 不是内部或外部命令,也不是可运行的程序或批处理文件”报错
【计算机网络】已解决:“‘ping‘ 不是内部或外部命令,也不是可运行的程序或批处理文件”报错
505 0