Python3 抓取百度贴吧图片

简介:

   我抓取的地址是http://tieba.baidu.com/p/3125473879?pn=2,这个帖子共有82页左右,下面的代码主要抓取82页的所有图片,具体代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
"""抓取百度贴吧图片"""
#导入模块
import  re
import  urllib
from  urllib.request  import  urlopen,urlretrieve
#获取抓取页面的源代码
def  getHtml(url):
     page  =  urlopen(url)
     html  =  str (page.read())
     page.close()
     return  html
#通过源代码以及正则表达式,匹配我们的url
def  getImg(html):
     reg  =  r '<img class="BDE_Image" src="(.+?\.jpg)" '
     imgre  =  re. compile (reg)
     imglist  =  re.findall(imgre,html)
     =  0
     for  imgurl  in  imglist:
         urlretrieve(imgurl, 'C:\\Users\\Water\\PycharmProjects\\test\\image\\%s-%s.jpg'  %  (i,x))
         =  +  1
#调用函数
=  1
while  i <  83 :
     html  =  getHtml( "http://tieba.baidu.com/p/3125473879?pn="  +  str (i))
     getImg(html)
     i + = 1
     print (i)

    抓取结果如下,我这里只是简单些一下,以后再详细介绍。

wKiom1dX5WzxSmXcAASy_ifjAEA695.jpg





     本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1787514,如需转载请自行联系原作者



相关文章
|
5天前
|
数据采集 JSON API
Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势
小红书作为社交电商的重要平台,其笔记评论蕴含丰富市场洞察与用户反馈。本文介绍的小红书笔记评论API,可获取指定笔记的评论详情(如内容、点赞数等),支持分页与身份认证。开发者可通过HTTP请求提取数据,以JSON格式返回。附Python调用示例代码,帮助快速上手分析用户互动数据,优化品牌策略与用户体验。
|
7天前
|
数据采集 存储 缓存
Python爬虫与代理IP:高效抓取数据的实战指南
在数据驱动的时代,网络爬虫是获取信息的重要工具。本文详解如何用Python结合代理IP抓取数据:从基础概念(爬虫原理与代理作用)到环境搭建(核心库与代理选择),再到实战步骤(单线程、多线程及Scrapy框架应用)。同时探讨反爬策略、数据处理与存储,并强调伦理与法律边界。最后分享性能优化技巧,助您高效抓取公开数据,实现技术与伦理的平衡。
40 4
|
20天前
|
数据采集 存储 NoSQL
如何避免Python爬虫重复抓取相同页面?
如何避免Python爬虫重复抓取相同页面?
|
1月前
|
Web App开发 数据采集 前端开发
Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?
Python + Chrome 爬虫:如何抓取 AJAX 动态加载数据?
|
2月前
|
数据采集 存储 前端开发
用Python抓取亚马逊动态加载数据,一文读懂
用Python抓取亚马逊动态加载数据,一文读懂
|
6月前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
74 4
|
6月前
|
数据采集 Java Python
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
在信息化时代,实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置,高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理,解决了抓取效率低、请求限制等问题,提供了详细的代码示例和解析方法。
172 0
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
|
11月前
|
数据安全/隐私保护 Python
Python3给图片添加水印
Python3给图片添加水印
128 1
|
数据采集 分布式计算 搜索推荐
使用Python实现网页中图片的批量下载和水印添加保存
使用Python实现网页中图片的批量下载和水印添加保存
|
11月前
|
数据安全/隐私保护 Python
python 图片打水印 透明图片合并
python 图片打水印 透明图片合并
115 1

热门文章

最新文章

下一篇
oss创建bucket