抓取网页和二进制数据

简介: 简单使用

抓取网页

上面请求链接返回的是JSON格式的字符串,那么请求普通的网页,就能获取到相对应的内容根据例
r=requests.get("https://ssr1.scrape.center/")
pattern=re.compile("<h2.?>(.?)",re.S)
titles=re.findall(pattern,r.text)
print(titles)
image.png
这就是最简单的一个抓取和提取的过程

抓取二进制数据

我们抓取的是一个页面他的实质是HTML文档,但是当我们要爬取图片,音频,视频时,这些文件本质上都是由二进制码组成的,要抓取他们,就必须要拿到他们的二进制数据,抓取站点图标,也就是浏览器中每一个标签上显示的的小图标,
爬取到的数据为二进制数据,我们可以通过open方法打开并保存图片。

添加请求头

我们可以通过headers参数来添加请求头,我们可以在其中添加任何的字段,如果我们想添加一个请求头的User-Agent字段我们可以
import requests
headers={
"User-Agent":"Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4" AppleWebkit/537(KHTML,like Cecko)Chrome/52.0.2743.116 Safari/ 537.36"
r=requsts.get("https://ssr1.scrape.center/",headers=headers)
print(r.text)
当然我们也可以在headers参数中添加任何其他字段信息
}

相关文章
|
11月前
|
搜索推荐 程序员 调度
精通Python异步编程:利用Asyncio与Aiohttp构建高效网络应用
【10月更文挑战第5天】随着互联网技术的快速发展,用户对于网络应用的响应速度和服务质量提出了越来越高的要求。为了构建能够处理高并发请求、提供快速响应时间的应用程序,开发者们需要掌握高效的编程技术和框架。在Python语言中,`asyncio` 和 `aiohttp` 是两个非常强大的库,它们可以帮助我们编写出既简洁又高效的异步网络应用。
356 1
|
2月前
|
存储 算法 安全
JAVA 八股文全网最详尽整理包含各类核心考点助你高效学习 jAVA 八股文赶紧收藏
本文整理了Java核心技术内容,涵盖Java基础、多线程、JVM、集合框架等八股文知识点,包含面向对象特性、线程创建与通信、运行时数据区、垃圾回收算法及常用集合类对比,附有代码示例与学习资料下载链接,适合Java开发者系统学习与面试准备。
683 0
|
3月前
|
人工智能 自然语言处理 数据可视化
DeepSeek+Coze:普通人也能轻松搭建AI智能体的完整指南优雅草卓伊凡
DeepSeek+Coze:普通人也能轻松搭建AI智能体的完整指南优雅草卓伊凡
1412 1
DeepSeek+Coze:普通人也能轻松搭建AI智能体的完整指南优雅草卓伊凡
|
10月前
|
Web App开发 移动开发 UED
介绍一下HTML5的新技能:多媒体支持
介绍一下HTML5的新技能:多媒体支持
347 2
|
8月前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
3563 85
通义灵码2.0全新升级,AI程序员全面开放使用
|
10月前
|
缓存 负载均衡 监控
如何优化网络传输效率?
如何优化网络传输效率?
1217 2
|
监控 关系型数据库 MySQL
如何升级mysql的版本
如何升级mysql的版本
1268 2
|
API 开发工具
抖音sdk,抖音开发api接口
抖音sdk,抖音开发api接口
|
Python
【ERROR】asyncio.run(main())报错:RuntimeError: Event loop is closed
【ERROR】asyncio.run(main())报错:RuntimeError: Event loop is closed
732 0
|
存储 运维 Linux
自建CA生成证书详解
自建CA生成证书详解
441 1