Python爬取百度贴吧图片

简介: 一、获取URL   Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:   urllib.urlopen()方法用于打开一个URL地址。
+关注继续查看

一、获取URL

  Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:

  urllib.urlopen()方法用于打开一个URL地址。

  read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。

二、查看图片地址

 

  我们又创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式:

  re.compile() 可以把正则表达式编译成一个正则表达式对象.

  re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。

   运行脚本将得到整个页面中包含图片的URL地址。

  下面是图片url。

三、保存数据到本地

import urllib
import re
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    # 原来 pic-ext前面少了个空格打印出来 []
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%d.jpg' %x)
        x+=1

html = getHtml("http://tieba.baidu.com/p/4058560157")

print getImg(html)

  保存的图片在该py文件的桶一目录,如何设置其他保存路径呢,在urlretrieve的最后%x那设置,然后,我不知道怎么设置。

目录
相关文章
|
4天前
|
程序员 开发者 Python
小白学Python:提取Word中的所有图片,只需要1行代码
小白学Python:提取Word中的所有图片,只需要1行代码
|
1月前
|
数据采集 Python
Python的Requests来爬取今日头条的图片和文章
Python的Requests来爬取今日头条的图片和文章
|
1月前
|
数据采集 Python
用python爬取百度上的特定图片
用python爬取百度上的特定图片
|
1月前
|
数据采集 JavaScript 索引
Python让你再也不为文章配图与素材发愁,让高清图片占满你的硬盘!
最近写公众号写的染上了个怪毛病,不到12点根本不知道写啥。一过凌晨那简直是吃了大回复一般的文思泉涌。结果就是越熬夜越晚了.公众号是每天定时发的,简书上的发帖时间才是真正的睡前倒计时...然后,来看看都是几点睡的
29 0
|
1月前
|
存储 索引 Python
【小白必看】Python图片合成示例之使用PIL库实现多张图片按行列合成
【小白必看】Python图片合成示例之使用PIL库实现多张图片按行列合成
34 0
|
1月前
|
存储 数据采集 JavaScript
【小白必看】使用Python批量下载英雄联盟皮肤图片的技术实现
【小白必看】使用Python批量下载英雄联盟皮肤图片的技术实现
15 1
|
1月前
|
存储 Python
技巧 | Python制作朋友圈炫酷九宫格图片
技巧 | Python制作朋友圈炫酷九宫格图片
|
1月前
|
Python
Python将图片转化成文字
Python将图片转化成文字
41 0
|
1月前
|
人工智能 文字识别 数据安全/隐私保护
四行Python代码,你也能从图片上识别文字!
四行Python代码,你也能从图片上识别文字!
56 0
|
1月前
|
自然语言处理 Python
Python读取Word/PPT文件文本内容和图片内容
读取某个指定路径下的Word/PPT文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里
59 0
相关产品
云迁移中心
推荐文章
更多