网络爬虫的入门及爬取图片,文章,音频

简介: >持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第22天,[点击查看活动详情](https://juejin.cn/post/7147654075599978532 "https://juejin.cn/post/7147654075599978532")# 引言今天带来一篇python的网络爬虫# 网络爬虫的介绍> 网络爬虫(又称为网页蜘蛛,[网络](https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C/143243?fromModule=lemma_inlink)机器人,在[FOAF](https://bai
持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第22天, 点击查看活动详情

引言

今天带来一篇python的网络爬虫

网络爬虫的介绍

网络爬虫(又称为网页蜘蛛, 网络机器人,在 FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的 程序或者 脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

摘选自百度百科

可见,网络爬虫就是一个自动抓取一些信息的程序或脚本,接下来我们带大家学习一下python的网络爬虫

另外,爬虫并不是只能用python来实现,其他语言如Java等也可以实现网络爬虫,只不过python在这方面有很多优势。

关于库

我们爬虫有很多库,比如自带的urillb.requests,这里我们来介绍最常见的requests库

requests库并不是系统自带的库,所以我们需要用pip进行下载

win+R 打开 cmd

然后输入 pip install requests

进行requests库的下载

下载成功后,我们来正式进入爬虫的学习。

一个简单的爬虫Demo

import requests

url = "https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711"

result = requests.get(url=url)

print(result)

这是一个简单的爬虫小demo

首先首行我们导入requests库

然后定义一个字符型的url变量,后面值是目标网址

接下来我们调用requests.get()的方法

返回结果我们用一个result来接收

最后我们输出这个result

结果如下:

可能看上去有一些奇怪,这是什么东西?为什么不是这个网页的内容啊????

有兴趣的同学可以了解一些http的状态

这里不多赘述

200是成功的意思

获取结果中的内容

接下来我们来分别从文本的获取,图片的获取,音频的获取和视频的获取来写我们的文章

文本的获取

修改我们的代码

import requests

url = "https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711"

result = requests.get(url=url)

print(result.text)

可见,我们只把result加上了text属性,接下来我们运行这段py代码,输出了一大堆我们看不懂的代码

这啥玩意呢?

image.png

我们进入之前的url目标页面,然后右键,选择检查

发现一大堆代码

比对我们之前爬出来的东西

原来我们爬的是这些啊

总之,我们已经成功获取了所有的内容,虽然混合了大量的代码,当然有读者可能会问,怎么剔除我们不想要的内容呢?

这要涉及到正则表达式了

我们爬虫章就不多赘述了

图片的获取

图片的存储设计到二进制,所以我们要抓取二进制数据

这里我们获取的方面,不再使用.text,而是使用.content来获取二进制数据,我们这边在桌面新建一个xxx.jpg文件,接下来我们把爬取到的数据通过文件二进制读写的方式写入xxx.jpg文件,然后再打开,就是这张图片了

import requests

url = "https://scpic.chinaz.net/files/pic/pic9/201311/apic2098.jpg"

result = requests.get(url=url)

with open(r"C:\Users\DELL\Desktop\xxx.jpg","wb") as fp:
    fp.write(result.content)

print("完成了")

接下来运行,然后打开jpg文件,就是我们之前的图片了

进阶

我们获取到图片的URL后,可以直接通过这种方式来下载图片,我们在有很多图片需要下载的时候,可以直接第一步获取当前页面的源码,然后正则筛选出所有图片的url,然后把这些url放入列表中,再循环遍历列表,分别放入不同的jpg文件中,实现自动下载。

音频的获取和视频的获取

音频的获取和视频的获取同理

我们还是获取.content二进制数据,然后分别写入.mp3文件(音乐)和.mp4(视频)

值得一提的是,很多视频现在都会分多个m3u8来存储,所以我们可能通过循环的方式来获取多个url

最后一点总结

有时候可能会被识别出爬虫导致失败

这里介绍几种伪装

User-Agent

我们F12进入开发者工具

找到网络部分

然后找到User-Agent部分

将其复制下来,用一个字典进行封装,(用""分别括住键值对)

然后在request.get中调用headers=你封装的字典

完成User-Agent的伪装

cookie

F12进入开发者工具

找到网络部分

然后找到cookiet部分

将其复制下来,用一个字典进行封装,(用""分别括住键值对)

然后在request.get中调用headers=你封装的字典

完成cookie的伪装

(我们字典中可以封装多个键值对,但是之间要用,隔开)

其他

网站可能还会检测其他的头信息,都可以尝试复制到字典中,另外网站可能还会封ip,我们可以使用代理或者延时,不密集的发送请求,另外网站可能不是get而是post请求,需要我们去开发者工具中查询。

另外,爬虫分良性爬虫和恶性爬虫,我们要遵守法律,不要做违法的事情!!!!!!

相关文章
|
7天前
|
数据采集 存储 JSON
Python爬虫开发:BeautifulSoup、Scrapy入门
在现代网络开发中,网络爬虫是一个非常重要的工具。它可以自动化地从网页中提取数据,并且可以用于各种用途,如数据收集、信息聚合和内容监控等。在Python中,有多个库可以用于爬虫开发,其中BeautifulSoup和Scrapy是两个非常流行的选择。本篇文章将详细介绍这两个库,并提供一个综合详细的例子,展示如何使用它们来进行网页数据爬取。
|
2月前
|
NoSQL Java Redis
Redis系列学习文章分享---第十八篇(Redis原理篇--网络模型,通讯协议,内存回收)
Redis系列学习文章分享---第十八篇(Redis原理篇--网络模型,通讯协议,内存回收)
52 0
|
7天前
|
缓存
Flutter Image从网络加载图片刷新、强制重新渲染
Flutter Image从网络加载图片刷新、强制重新渲染
13 1
|
1月前
|
网络协议 网络安全 数据中心
|
17天前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络入门到精通:Python带你搭建AI思维,解锁机器学习的无限可能
【8月更文挑战第3天】踏入人工智能领域,神经网络是开启智慧之门的钥匙。它不仅是一种技术,更是模仿人脑学习与推理的思维方式。从理解神经元间的连接到构建神经网络的基本概念,再到使用Python与TensorFlow搭建手写数字识别模型,每一步都揭示着机器学习的奥秘。随着深入学习,我们将探索更高级的主题,比如深度神经网络、卷积神经网络和循环神经网络,以及如何优化模型性能。掌握背后的数学原理,将帮助我们设计更高效准确的模型。在这个旅程中,Python将是我们的得力助手,引领我们探索AI世界的无限可能。
23 2
|
2天前
|
运维 网络协议 API
入门网络,少不了这份详细的网络基础学习指南!
入门网络,少不了这份详细的网络基础学习指南!
|
8天前
|
监控 安全 网络虚拟化
智能家居安全入门:保护你的网络家园
在数字化浪潮的推动下,智能家居设备已走进千家万户,带来便捷的同时,也引入了新的安全隐患。本文将带你了解智能家居安全的基本知识,教你如何打造一道坚固的数字防线,保卫你的网络家园免受黑客侵害。
21 0
|
1月前
|
监控 安全 网络安全
|
1月前
|
JavaScript Java 测试技术
基于springboot+vue.js+uniapp的网络在线考试系统附带文章源码部署视频讲解等
基于springboot+vue.js+uniapp的网络在线考试系统附带文章源码部署视频讲解等
30 0
基于springboot+vue.js+uniapp的网络在线考试系统附带文章源码部署视频讲解等
|
1月前
|
数据采集 大数据 关系型数据库
如何使用 PHP 爬虫爬取大数据
**摘要:** 本文探讨了如何使用PHP爬虫处理大数据。从爬虫基本概念出发,讨论了PHP爬虫框架如Goutte和PHP-Crawler。在爬取大数据时,需明确目标网站、数据类型和量,编写爬虫程序,包括数据提取、反爬策略如设置User-Agent和访问频率控制。同时,采用并发处理(多线程)和分布式爬虫策略提升效率。最后,强调了合法合规使用爬虫技术的重要性。