Python2 抓取百度贴吧图片

简介:
+关注继续查看

    我这里抓取的百度贴吧的地址是http://tieba.baidu.com/p/2460150866?pn=1。以下是源码,使用的是python2。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import re            #导入正则模块
import urllib        #导入url库模块
 
#抓取页面的源码
def getHtml(url):
    page = urllib.urlopen(url)       #打开指定的URL
    html = page.read()               #读取URL的内容并保存
    return html                      #函数返回读取的内容
 
#下载源码中指定的图片    
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'         
    imgre = re.compile(reg)
    imglist = imgre.findall(html)
    = 0
    for imgurl in imglist:
        print(imgurl)
        #下载图片到指定的目录,并且重新命名
        urllib.urlretrieve(imgurl,r'C:\Users\Water\PycharmProjects\test\image\%s-%s.jpg' % (i,x))
        = + 1
 
#循环抓取所有的页面        
= 1
while i < 74:                #贴吧共有74页评论
    html = getHtml("http://tieba.baidu.com/p/2460150866?pn=" + str(i))
    getImg(html)
    i+=1
    print(i)


    下面是抓取的结果

wKioL1deaWDhCvxCAAR4fZV-LsI094.jpg




     本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1788735,如需转载请自行联系原作者






相关文章
|
2月前
|
数据采集 JavaScript API
Python爬虫抓取经过JS加密的API数据的实现步骤
Python爬虫抓取经过JS加密的API数据的实现步骤
|
2月前
|
JSON API 数据格式
Python网络请求初级篇:使用Requests库抓取和解析数据
在网络编程中,请求和接收数据是最常见的任务之一。Python的Requests库提供了丰富的功能,使得HTTP请求变得非常简单。在本文中,我们将了解如何使用Requests库发起HTTP请求,并解析返回的数据。
|
2月前
|
数据采集 前端开发 Python
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
|
3月前
|
数据采集 传感器 Web App开发
无人驾驶车辆中Python爬虫的抓取与决策算法研究
无人驾驶车辆中Python爬虫的抓取与决策算法研究
|
3月前
|
数据采集 JavaScript 搜索推荐
对于Python抓取Google搜索结果的一些了解
对于Python抓取Google搜索结果的一些了解
|
3月前
|
存储 数据采集 监控
如何防止Python大规模图像抓取过程中出现内存不足错误
图像抓取是一种常见的网络爬虫技术,用于从网页上下载图片并保存到本地文件夹中。然而,当需要抓取的图片数量很大时,可能会出现内存不足的错误,导致程序崩溃。本文介绍了如何使用Python进行大规模的图像抓取,并提供了一些优化内存使用的方法和技巧,以及如何计算和评估图片的质量指标。
如何防止Python大规模图像抓取过程中出现内存不足错误
|
4月前
|
Python
用python多线程抓取网站图片,速度极快
用python多线程抓取网站图片,速度极快
|
5月前
|
C++ Python
Python 给自己的博客做个目录,从网页中抓取标题和创建日期
Python 给自己的博客做个目录,从网页中抓取标题和创建日期
57 0
|
5月前
|
Python
Python 批量抓取help()函数的帮助内容(附36M帮助文档)
Python 批量抓取help()函数的帮助内容(附36M帮助文档)
45 0
|
5月前
|
数据采集 数据可视化 JavaScript
使用 Python/Selenium 抓取网站的 Power BI dashboard
Power BI可以帮助用户从不同来源的数据中提取信息,生成交互式报表和可视化仪表盘。Power BI dashboard是Power BI的一个重要组成部分,它可以将来自多个数据源的数据整合到一个面板上,为用户提供全面的数据洞察。通过Power BI dashboard,用户可以方便地查看关键指标的实时数据、分析趋势变化和发现隐藏在数据中的模式和趋势。重点是Power BI dashboard是使用 JavaScript 呈现的,因此在尝试抓取任何数据之前,需要确保页面已完成加载。可以使用 WebDriverWait 类等待某个元素出现在页面上,这是页面加载完成的良好指示。
113 0
相关产品
云迁移中心
推荐文章
更多