python之高清图片爬取了解一下

简介: 高清图片爬取了解一下前段时间在知乎看到一篇文章,关于视觉中国如何从腾讯身上扒一层皮的事情。大意就是互联网巨头在没有经过授权的情况下使用了9张来自视觉中国的照片,最后的结果是以赔偿视觉中国4w结束。

高清图片爬取了解一下

img_b73e7e89b4302f996ce591d9e6a253f7.jpe

前段时间在知乎看到一篇文章,关于视觉中国如何从腾讯身上扒一层皮的事情。大意就是互联网巨头在没有经过授权的情况下使用了9张来自视觉中国的照片,最后的结果是以赔偿视觉中国4w结束。原文链接:

https://zhuanlan.zhihu.com/p/35045810 感兴趣的可以看看。

当然这对于我们普通人而言几乎没有什么影响。但我们要知道图片版权这回事。

今天带大家爬取的图片网站是:https://unsplash.com/ 

这里的图片没有版权,你可以随便使用。而且这里面的图片质量都特别高。我的一些图片都是从这上面找的

Ajax加载图片

第一步,请求网页

我们打开网站,下拉页面发现不断加载图片,但是整个页面没有刷新,也就是页面的链接没有变化。其实这个过程就是Aiax加载的过程。

Ajax请求有特殊的类型,它叫做 xhr ,我们打开开发者工具或者按 F12键,切换到Network。

img_602d15733e513871460ac143b65b1c5d.jpe

 下方切换到 XHR 这里面都是经过Ajax加载的。我们往下多点几个链接发现,下方的三个参数只有 page 在变化,于是我们可以构造这个参数。来提交请求。

```

def get_page(page,headers):

url = 'https://unsplash.com/napi/photos'

   data = {

       'page': page,

       'per_page': 12,

       'order_by': 'latest'

   }

   response = requests.get(url, headers=headers, params=data)

   if response.status_code == 200:

       return response.json()

```

第二步:解析网页并得到图片链接

接着切换到Prereview选项卡,看到返回的是json数据。继续找发现图片链接在 download 里面,我们复制一个链接在浏览器里打开发现分析的没错。

img_8b0a8fcbc66bceb2b3c82570a3e08941.jpe

接下来,再实现一个解析方法:提取每条数据的links字段里的download,将图片的链接返回。

```

def get_image(json,headers):

for item in json:

images = item['links']['download']#这句借鉴大佬代码,真的是厉害了

print('正在下载:',images)

urllib3.disable_warnings()

response = requests.get(images,headers=headers,verify=False)

return response,images

```

最后保存到本地

def save_images(response,images):

if '图片' not in os.listdir('.'):

os.mkdir('图片')# 创建文件夹

os.chdir('图片')# 进入文件夹下

filename = images.split('/')[-2] + '.jpg'

with open(filename, 'wb') as f:

f.write(response.content)

os.chdir('..')# 返回上级目录

if __name__ == '__main__':

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'

 '(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

 'referer': 'https://unsplash.com/'

}

for i in range(1,10):

json = get_page(i,headers)

response,images = get_image(json,headers)

save_images(response,images)

总结

承认自己还有许多不足,代码还有许多可以改进的地方

本文还可以扩展,比如说实现指定关键字work,beauty,nature 等下载图片

代码不是一下子就写出来的,要经过不断调试,出错是很正常的,不断地发现错误并解决才能有所进步。学习的过程中善用搜索引擎,多思考。希望与你一同学习。

原创不易,觉得不错点个赞再走呗。

公众号:sixkery

目录
相关文章
|
1天前
|
数据安全/隐私保护 Python
python 图片打水印 透明图片合并
python 图片打水印 透明图片合并
5 1
|
13天前
|
存储 索引 Python
python图片九宫格图片处理
本篇文章介绍了一个Python项目的实现,项目能够处理图片并将其组合成九宫格或四宫格,同时还具备音乐播放功能,对于初学者来说是一个可以进行实战学习的初级项目。
|
13天前
|
存储 计算机视觉 Python
python实现Gif图片的字符画
这是一个Python实战项目,旨在将GIF动态图转化为ASCII字符动画。项目适合有一定Python基础的学习者,主要使用os、imageio、PIL库。首先,代码导入所需库,然后通过PIL创建空白图片并添加文本。接着,程序读取GIF,拆分帧并转为字符画,存入“tmp”目录。同时,代码提供了清空“tmp”目录、将灰度值映射为ASCII字符、将图片处理成字符画的函数。此外,还有创建新画布和合成GIF的步骤。主函数调用这些模块,最终将ASCII字符画合并成GIF。项目展示了将动态图像转换为ASCII艺术的过程。
|
14天前
|
数据采集 Web App开发 iOS开发
爬取B站评论:Python技术实现详解
爬取B站评论:Python技术实现详解
|
16天前
|
Python
python代码根据点坐标裁切图片
【4月更文挑战第19天】python代码根据点坐标裁切图片
27 2
|
25天前
|
数据采集 Web App开发 开发者
探秘Python爬虫技术:王者荣耀英雄图片爬取
探秘Python爬虫技术:王者荣耀英雄图片爬取
|
26天前
|
机器学习/深度学习 算法 自动驾驶
opencv python 图片叠加
【4月更文挑战第17天】
|
1月前
|
计算机视觉 Python
|
1月前
|
存储 前端开发 安全
python窗口刷新图片
【4月更文挑战第11天】
|
11月前
|
数据采集 Python
python使用aiohttp通过设置代理爬取基金数据
python使用aiohttp通过设置代理爬取基金数据