Python3 抓取百度贴吧图片

简介:
+关注继续查看

   我抓取的地址是http://tieba.baidu.com/p/3125473879?pn=2,这个帖子共有82页左右,下面的代码主要抓取82页的所有图片,具体代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
"""抓取百度贴吧图片"""
#导入模块
import re
import urllib
from urllib.request import urlopen,urlretrieve
#获取抓取页面的源代码
def getHtml(url):
    page = urlopen(url)
    html = str(page.read())
    page.close()
    return html
#通过源代码以及正则表达式,匹配我们的url
def getImg(html):
    reg = r'<img class="BDE_Image" src="(.+?\.jpg)" '
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    = 0
    for imgurl in imglist:
        urlretrieve(imgurl,'C:\\Users\\Water\\PycharmProjects\\test\\image\\%s-%s.jpg' % (i,x))
        = + 1
#调用函数
= 1
while i < 83:
    html = getHtml("http://tieba.baidu.com/p/3125473879?pn=" + str(i))
    getImg(html)
    i+=1
    print(i)

    抓取结果如下,我这里只是简单些一下,以后再详细介绍。

wKiom1dX5WzxSmXcAASy_ifjAEA695.jpg





     本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1787514,如需转载请自行联系原作者



相关文章
|
2月前
|
数据采集 JavaScript API
Python爬虫抓取经过JS加密的API数据的实现步骤
Python爬虫抓取经过JS加密的API数据的实现步骤
|
2月前
|
JSON API 数据格式
Python网络请求初级篇:使用Requests库抓取和解析数据
在网络编程中,请求和接收数据是最常见的任务之一。Python的Requests库提供了丰富的功能,使得HTTP请求变得非常简单。在本文中,我们将了解如何使用Requests库发起HTTP请求,并解析返回的数据。
|
2月前
|
数据采集 前端开发 Python
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
Python爬虫与逆向工程技术的结合,实现新闻网站动态内容的多线程抓取
|
3月前
|
数据采集 传感器 Web App开发
无人驾驶车辆中Python爬虫的抓取与决策算法研究
无人驾驶车辆中Python爬虫的抓取与决策算法研究
|
3月前
|
数据采集 JavaScript 搜索推荐
对于Python抓取Google搜索结果的一些了解
对于Python抓取Google搜索结果的一些了解
|
3月前
|
存储 数据采集 监控
如何防止Python大规模图像抓取过程中出现内存不足错误
图像抓取是一种常见的网络爬虫技术,用于从网页上下载图片并保存到本地文件夹中。然而,当需要抓取的图片数量很大时,可能会出现内存不足的错误,导致程序崩溃。本文介绍了如何使用Python进行大规模的图像抓取,并提供了一些优化内存使用的方法和技巧,以及如何计算和评估图片的质量指标。
如何防止Python大规模图像抓取过程中出现内存不足错误
|
4月前
|
Python
用python多线程抓取网站图片,速度极快
用python多线程抓取网站图片,速度极快
|
5月前
|
C++ Python
Python 给自己的博客做个目录,从网页中抓取标题和创建日期
Python 给自己的博客做个目录,从网页中抓取标题和创建日期
57 0
|
5月前
|
Python
Python 批量抓取help()函数的帮助内容(附36M帮助文档)
Python 批量抓取help()函数的帮助内容(附36M帮助文档)
45 0
|
5月前
|
数据采集 数据可视化 JavaScript
使用 Python/Selenium 抓取网站的 Power BI dashboard
Power BI可以帮助用户从不同来源的数据中提取信息,生成交互式报表和可视化仪表盘。Power BI dashboard是Power BI的一个重要组成部分,它可以将来自多个数据源的数据整合到一个面板上,为用户提供全面的数据洞察。通过Power BI dashboard,用户可以方便地查看关键指标的实时数据、分析趋势变化和发现隐藏在数据中的模式和趋势。重点是Power BI dashboard是使用 JavaScript 呈现的,因此在尝试抓取任何数据之前,需要确保页面已完成加载。可以使用 WebDriverWait 类等待某个元素出现在页面上,这是页面加载完成的良好指示。
113 0
相关产品
云迁移中心
推荐文章
更多