python爬虫入门教程:爬取网页图片

简介: python爬虫入门教程:爬取网页图片

python爬虫入门教程:爬取网页图片

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

准备工作
语言:python

IDE:pycharm

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页
import re //正则表达式,用于解析筛选网页中的信息
其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序
首先肯定要通过python访问这个网站,代码如下:

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
}

response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页
其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '(.*?)'
像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)
返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码
import requests
import re
import os

image = '表情包'
if not os.path.exists(image):

os.mkdir(image)

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
}

response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'
print(response.request.headers)
print(response.status_code)
t = '(.*?)'
result = re.findall(t, response.text)
for img in result:

print(img)
res = requests.get(img[0])
print(res.status_code)
s = img[0].split('.')[-1]  #截取图片后缀,得到表情包格式,如jpg ,gif
with open(image + '/' + img[1] + '.' + s, mode='wb') as file:
    file.write(res.content)
目录
相关文章
|
1天前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
2天前
|
Web App开发 数据采集 前端开发
Python Selenium 爬虫淘宝案例
本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。
33 1
|
2天前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)
24 2
|
2天前
|
机器学习/深度学习 数据采集 JSON
Python爬虫requests库详解#3
摘要:python requests库基用法,高级用法
21 0
|
2天前
|
数据采集 应用服务中间件 数据安全/隐私保护
Python爬虫urllib详解#3
摘要:urllib深度解析与高级用法、robots协议分析
32 1
Python爬虫urllib详解#3
|
2天前
|
数据采集 存储 前端开发
Python爬虫的基本原理#2
摘要:爬虫基本原理、会话和Cookie详解
24 1
|
9天前
|
数据采集 JSON 安全
Python爬虫之http基本原理#2
http基本原理,http报文解析,http请求过程
26 0
|
11天前
|
存储 数据采集 NoSQL
Python爬虫存储库安装#1
摘要:PyMySQL安装、PyMongo安装、redis-py安装、RedisDump安装
42 4
|
11天前
|
数据采集 文字识别 Linux
Python爬虫解析库安装#1
摘要:python解析库 lxml安装、beautiful soup 安装、pyquery安装、tesserocr安装
44 3
|
11天前
|
Web App开发 数据采集 Linux
Python爬虫请求库安装#1
摘要:requests安装、selenium安装、aiohttp安装
57 3

相关产品

  • 云迁移中心