Python 简单网页爬虫学习

简介: 1 #coding=utf-8 2 3 # 参考文章: 4 # 1. python实现简单爬虫功能 5 # http://www.cnblogs.com/fnng/p/3576154.
 1 #coding=utf-8
 2 
 3 # 参考文章:
 4 #   1. python实现简单爬虫功能
 5 #       http://www.cnblogs.com/fnng/p/3576154.html
 6 #   2. Python 2.7 时间和日期模块常用的例子
 7 #       http://www.linuxidc.com/Linux/2015-06/118458.htm
 8 #   3. Python open读写文件实现脚本
 9 #       http://www.jb51.net/article/15709.htm
10 #   4. python re 模块 findall 函数用法简述
11 #       http://blog.csdn.net/cashey1991/article/details/8875213
12 #   5. [Python]编码声明:是coding:utf-8还是coding=urf-8呢
13 #       http://www.xuebuyuan.com/975181.html
14 
15 
16 # urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。
17 import urllib
18 import re
19 import datetime,time
20 
21 # 定义了一个getHtml()函数
22 def getHtml( url ):
23     # urllib.urlopen()方法用于打开一个URL地址。
24     page = urllib.urlopen( url )
25     # read()方法用于读取URL上的数据
26     html = page.read()
27 
28     # 返回整个网页数据
29     return html
30 
31 # 创建getImg()函数
32 def getImg( html ):
33     # ()表示所要提取的字符串,即: 图片名.jpg
34     reg = r'src="(.+?\.jpg)" pic_ext'
35     # 可以把正则表达式编译成一个正则表达式对象.
36     imgre = re.compile( reg )
37     # 读取html 中包含 imgre(正则表达式)的数据。
38     # 当给出的正则表达式中带有一个括号时,列表的元素为字符串,
39     # 此字符串的内容与括号中的正则表达式相对应(不是整个正则表达式的匹配内容)。
40     imglist = re.findall( imgre, html )
41 
42     print "Start downloading the first five pictures"
43 
44     # 通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,
45     # 对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。
46     x = 0
47     for imgurl in imglist:
48         # 用到了urllib.urlretrieve()方法,直接将远程数据下载到本地
49         urllib.urlretrieve( imgurl, '%s.jpg' % x )
50         # python不支持类似 x++ 或 x-- 这样的前置/后置自增/自减运算符,因此只能用 += 或 -= 这种。
51         x += 1
52 
53         # 这里面的图片可能比较多,我们测试前五张就差不多了
54         if x == 5 :
55             break
56 
57     print "the first five pictures download completed."
58 
59     return imglist
60 
61 # 向getHtml()函数传递一个网址,并把整个页面下载下来,保存在html变量中
62 html = getHtml( "http://www.zengjf.org" )
63 
64 # 合成要保存的文件名,由年月日、时分秒组成,以只写方式打开文件
65 saveFile = open( time.strftime( "%Y%m%d%H%M%S" ) + ".html", 'w' )
66 saveFile.write( html )      # 将html中的内容写入文件
67 saveFile.close( )           # 关闭文件
68 
69 html = getHtml( "http://tieba.baidu.com/p/2460150866" )
70 print getImg( html )

 

目录
相关文章
|
2月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
2月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
314 1
|
2月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
175 1
|
2月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
270 1
|
3月前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
2月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
3月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
699 19
|
2月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
2月前
|
存储 Java 索引
(Python基础)新时代语言!一起学习Python吧!(二):字符编码由来;Python字符串、字符串格式化;list集合和tuple元组区别
字符编码 我们要清楚,计算机最开始的表达都是由二进制而来 我们要想通过二进制来表示我们熟知的字符看看以下的变化 例如: 1 的二进制编码为 0000 0001 我们通过A这个字符,让其在计算机内部存储(现如今,A 字符在地址通常表示为65) 现在拿A举例: 在计算机内部 A字符,它本身表示为 65这个数,在计算机底层会转为二进制码 也意味着A字符在底层表示为 1000001 通过这样的字符表示进行转换,逐步发展为拥有127个字符的编码存储到计算机中,这个编码表也被称为ASCII编码。 但随时代变迁,ASCII编码逐渐暴露短板,全球有上百种语言,光是ASCII编码并不能够满足需求
160 4

推荐镜像

更多