-实战
千图网链接:https://www.58pic.com/
需要安装的第三方库
pip install requests # 请求网络专用
pip install lxml # 解析数据专用
第一步:确定要抓取的网站内容
我们能看到这些都是需要办理VIP才能下载的数据,而且每个付费后的VIP还分不同的种类,但是没关系 因为接下来我会教大家如何抓取。
第二步:分析网站结构数据
通过元素面板的属性选择器我们快速定位到了图片的所在位置;发现这是一个url;但这个url有点与众不同;我们尝试打开一下看看;ps:这里需要添加一个http头部;否则是打不开的。
打开之后我们会发现这是一张很小的像素图;小图;这肯定是不满足我们需求的;因为如果单单只是获取到一些小图片;嗯!恕我想象不到有任何的用处;哈哈!如果大家需要的话;可以参照我的思路直接获取就可以了;接下来我们看看如何获取它的大图;因为只有大图最好还是高清的图;才是我们需要的。
这个属性面板中有一个herf的url链接;在我点击之后会进入这张图像的详情页;看下图的演示!
大家看!是不是明显就感觉到比原先打开的图要大的多并且还清晰 ;这才是我们理想中的样子嘛;但这个高清图的背景有很多的水印;不过没关系;这也正是我要教大家的地方所在!大家跟着我的思路继续往下走。😁
第三步:发起网络请求;获取数据
到这里大家对该网站的结构分析的也差不多了;看了这么久;该到了大展身手的时刻了。哈哈,等着急了吧!
import requests
# 网址
url = 'https://www.58pic.com/piccate/11-0-0.html'
# 请求网络
html = requests.get(url).content.decode('gbk')
print(html)
这一行代码是能够获取到网站返回的html数据;但如果只是单纯的从上往下堆代码的话;感觉会比较Low所以我们会通过函数进行一些简单的封装
第四步:对获取到的网络数据进行解析
# 网址
url = 'https://www.58pic.com/piccate/11-0-0.html'
# 请求网络;获取html
def get_requests(url):
# 请求网络
html = requests.get(url,headers).content.decode('gbk')
<!--print(html)-->
return html
考虑到要获取高清的大图;所以我们需要先能进入每张图片的详情页中;把它详情页中的数据先获取下来。
# 提取详情页url
def get_parser_url(data):
html = etree.HTML(data)
href_url_list = html.xpath('//div[@class="pic-box clearfix"]/div/a/@href')
return href_url_list
html = get_requests(url)
href_url_list = get_parser_url(html)
print(href_url_list)
到这一步我们已经进入把所有详情页的url成功获取下来了;不过这些 url数据全部都没有http头部;所以想要请求它们的话;就需要我们对这些url进行拼接。
# 提取url数据
def get_new_img_url(data):
html = etree.HTML(data)
# 提取图片的url
url = html.xpath('//img[@class="show-area-pic"]/@src')[0]
# 提取图片的标题
title = html.xpath('//img[@class="show-are-pic"]/@title')[0]+'.png'
print(url,title)
# 去除水印的url
base_url = "http://apifont.58pic.com/index.php?c=Download&a=downPng&im=//"
# auto_img_url=url.split('/')[-1].split('!')[0].split('.')[0].replace('auto_','')+'.png'
# 分割筛选url 对接VIP图片水印路径
pic_url = url.replace('//preview.qiantucdn.com/', '').split('!')[0].replace('auto_', '').split('.')[0] + '.png'
# 拼接去除水印 完整图片的链接
new_url = base_url + pic_url
# 替换
new_url_new=new_url.replace('png_','')
print('点击url进行下载 ---', new_url_new)
return url,title
第五步:对数据进行下载保存
import os
# 伪装
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'
}
# 保存
def save_file(url,file):
try:
file_name = './我创建的千图网/'+file
img = requests.get(url,headers=headers).content
with open (file_name,'wb') as save_img:
save_img.write(img)
except FileNotFoundError:
pass
# 遍历
for url_html in href_url_list:
html = get_requests('http:' + url_html)
img_url, img_title = get_new_img_url(html)
save_file('http:'+img_url, img_title)
print('正在下载{}'.format(img_title))
到这里其实就已经能够成功的把数据获取保存下来了;不过目前保存的数据及图片类型是去除水印之前的效果;大家可以根据我的思路动手实践一下。
去除水印前的效果
至此可以清晰的看到下载的这些图片都是带有水印的,当然这并不是我们最终的目的。 大家继续往下看🤓
去除水印后的效果
哈哈! 这就是我们最终想要的结果;是不是很绚丽。
此时此刻感觉非常有必要在下面来个大大的赞 👍 。