Python 简单网页爬虫学习

简介: 1 #coding=utf-8 2 3 # 参考文章: 4 # 1. python实现简单爬虫功能 5 # http://www.cnblogs.com/fnng/p/3576154.
 1 #coding=utf-8
 2 
 3 # 参考文章:
 4 #   1. python实现简单爬虫功能
 5 #       http://www.cnblogs.com/fnng/p/3576154.html
 6 #   2. Python 2.7 时间和日期模块常用的例子
 7 #       http://www.linuxidc.com/Linux/2015-06/118458.htm
 8 #   3. Python open读写文件实现脚本
 9 #       http://www.jb51.net/article/15709.htm
10 #   4. python re 模块 findall 函数用法简述
11 #       http://blog.csdn.net/cashey1991/article/details/8875213
12 #   5. [Python]编码声明:是coding:utf-8还是coding=urf-8呢
13 #       http://www.xuebuyuan.com/975181.html
14 
15 
16 # urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。
17 import urllib
18 import re
19 import datetime,time
20 
21 # 定义了一个getHtml()函数
22 def getHtml( url ):
23     # urllib.urlopen()方法用于打开一个URL地址。
24     page = urllib.urlopen( url )
25     # read()方法用于读取URL上的数据
26     html = page.read()
27 
28     # 返回整个网页数据
29     return html
30 
31 # 创建getImg()函数
32 def getImg( html ):
33     # ()表示所要提取的字符串,即: 图片名.jpg
34     reg = r'src="(.+?\.jpg)" pic_ext'
35     # 可以把正则表达式编译成一个正则表达式对象.
36     imgre = re.compile( reg )
37     # 读取html 中包含 imgre(正则表达式)的数据。
38     # 当给出的正则表达式中带有一个括号时,列表的元素为字符串,
39     # 此字符串的内容与括号中的正则表达式相对应(不是整个正则表达式的匹配内容)。
40     imglist = re.findall( imgre, html )
41 
42     print "Start downloading the first five pictures"
43 
44     # 通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,
45     # 对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。
46     x = 0
47     for imgurl in imglist:
48         # 用到了urllib.urlretrieve()方法,直接将远程数据下载到本地
49         urllib.urlretrieve( imgurl, '%s.jpg' % x )
50         # python不支持类似 x++ 或 x-- 这样的前置/后置自增/自减运算符,因此只能用 += 或 -= 这种。
51         x += 1
52 
53         # 这里面的图片可能比较多,我们测试前五张就差不多了
54         if x == 5 :
55             break
56 
57     print "the first five pictures download completed."
58 
59     return imglist
60 
61 # 向getHtml()函数传递一个网址,并把整个页面下载下来,保存在html变量中
62 html = getHtml( "http://www.zengjf.org" )
63 
64 # 合成要保存的文件名,由年月日、时分秒组成,以只写方式打开文件
65 saveFile = open( time.strftime( "%Y%m%d%H%M%S" ) + ".html", 'w' )
66 saveFile.write( html )      # 将html中的内容写入文件
67 saveFile.close( )           # 关闭文件
68 
69 html = getHtml( "http://tieba.baidu.com/p/2460150866" )
70 print getImg( html )

 

目录
打赏
0
0
0
0
12
分享
相关文章
【02】整体试验思路,在这之前我们发现sec_uid,sec_uid是什么和uid的关系又是什么?相互如何转换?python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
【02】整体试验思路,在这之前我们发现sec_uid,sec_uid是什么和uid的关系又是什么?相互如何转换?python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
49 6
Python学习:内建属性、内建函数的教程
本文介绍了Python中的内建属性和内建函数。内建属性包括`__init__`、`__new__`、`__class__`等,通过`dir()`函数可以查看类的所有内建属性。内建函数如`range`、`map`、`filter`、`reduce`和`sorted`等,分别用于生成序列、映射操作、过滤操作、累积计算和排序。其中,`reduce`在Python 3中需从`functools`模块导入。示例代码展示了这些特性和函数的具体用法及注意事项。
|
16天前
|
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
131 82
|
16天前
|
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
22 3
深入剖析 Python 爬虫:淘宝商品详情数据抓取
深入剖析 Python 爬虫:淘宝商品详情数据抓取
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
Python爬虫:京东商品评论内容
京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
107 3
1.1 学习Python操作Excel的必要性
学习Python操作Excel在当今数据驱动的商业环境中至关重要。Python能处理大规模数据集,突破Excel行数限制;提供丰富的库实现复杂数据分析和自动化任务,显著提高效率。掌握这项技能不仅能提升个人能力,还能为企业带来价值,减少人为错误,提高决策效率。推荐从基础语法、Excel操作库开始学习,逐步进阶到数据可视化和自动化报表系统。通过实际项目巩固知识,关注新技术,为职业发展奠定坚实基础。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等