Python2 抓取百度贴吧图片

简介:

    我这里抓取的百度贴吧的地址是http://tieba.baidu.com/p/2460150866?pn=1。以下是源码,使用的是python2。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import  re             #导入正则模块
import  urllib         #导入url库模块
 
#抓取页面的源码
def  getHtml(url):
     page  =  urllib.urlopen(url)        #打开指定的URL
     html  =  page.read()                #读取URL的内容并保存
     return  html                       #函数返回读取的内容
 
#下载源码中指定的图片    
def  getImg(html):
     reg  =  r 'src="(.+?\.jpg)" pic_ext'         
     imgre  =  re. compile (reg)
     imglist  =  imgre.findall(html)
     =  0
     for  imgurl  in  imglist:
         print (imgurl)
         #下载图片到指定的目录,并且重新命名
         urllib.urlretrieve(imgurl,r 'C:\Users\Water\PycharmProjects\test\image\%s-%s.jpg'  %  (i,x))
         =  +  1
 
#循环抓取所有的页面        
=  1
while  i <  74 :                 #贴吧共有74页评论
     html  =  getHtml( "http://tieba.baidu.com/p/2460150866?pn="  +  str (i))
     getImg(html)
     i + = 1
     print (i)


    下面是抓取的结果

wKioL1deaWDhCvxCAAR4fZV-LsI094.jpg




     本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1788735,如需转载请自行联系原作者






相关文章
|
2月前
|
机器学习/深度学习 编解码 Python
Python图片上采样工具 - RealESRGANer
Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。
243 3
|
2月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
652 0
|
3月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
6月前
|
数据采集 Web App开发 JavaScript
基于Selenium的Python爬虫抓取动态App图片
基于Selenium的Python爬虫抓取动态App图片
472 68
|
3月前
|
数据采集 存储 XML
Python爬虫XPath实战:电商商品ID的精准抓取策略
Python爬虫XPath实战:电商商品ID的精准抓取策略
|
4月前
|
数据采集 存储 监控
Python爬虫实战:批量下载亚马逊商品图片
Python爬虫实战:批量下载亚马逊商品图片
|
6月前
|
数据采集 存储 前端开发
Python爬虫自动化:批量抓取网页中的A链接
Python爬虫自动化:批量抓取网页中的A链接
|
6月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
1784 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
数据采集 Python Windows
python爬虫-抓取百度贴吧帖子图片
本爬虫可以爬取百度贴吧帖子中的图片,代码有待完善,欢迎大家指教! 出处:https://github.com/jingsupo/python-spider/blob/master/day03/07tieba.
1164 0

推荐镜像

更多
下一篇
oss云网关配置