抓取网页和二进制数据

简介: 简单使用

抓取网页

上面请求链接返回的是JSON格式的字符串,那么请求普通的网页,就能获取到相对应的内容根据例
r=requests.get("https://ssr1.scrape.center/")
pattern=re.compile("<h2.?>(.?)",re.S)
titles=re.findall(pattern,r.text)
print(titles)
image.png
这就是最简单的一个抓取和提取的过程

抓取二进制数据

我们抓取的是一个页面他的实质是HTML文档,但是当我们要爬取图片,音频,视频时,这些文件本质上都是由二进制码组成的,要抓取他们,就必须要拿到他们的二进制数据,抓取站点图标,也就是浏览器中每一个标签上显示的的小图标,
爬取到的数据为二进制数据,我们可以通过open方法打开并保存图片。

添加请求头

我们可以通过headers参数来添加请求头,我们可以在其中添加任何的字段,如果我们想添加一个请求头的User-Agent字段我们可以
import requests
headers={
"User-Agent":"Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4" AppleWebkit/537(KHTML,like Cecko)Chrome/52.0.2743.116 Safari/ 537.36"
r=requsts.get("https://ssr1.scrape.center/",headers=headers)
print(r.text)
当然我们也可以在headers参数中添加任何其他字段信息
}

相关文章
|
2月前
|
Python
python编码和解码
【5月更文挑战第8天】
21 4
|
2月前
|
Python
Python字符串和字节使用正确的编码/解码
【5月更文挑战第6天】Python字符串和字节使用正确的编码/解码
18 2
|
12月前
|
数据采集 Python
【Python爬虫】用urllib请求一个网页,响应的content中中文为16进制,如何转换为中文
用urllib请求一个网页,响应的content中中文为16进制,如何转换为中文
|
12月前
|
PHP 数据安全/隐私保护
PHP函数学习:16进制ASCII转化为字符串加密解密
PHP函数学习:16进制ASCII转化为字符串加密解密
242 0
给一个网页指定编码
给一个网页指定编码
76 0
|
XML 安全 开发工具
利用vstruct解析二进制数据
  Vstruct是一个纯粹由Python语言编写的模块,可用于二进制数据的解析和序列化处理。实际上,Vstruct是隶属于vivisect项目的一个子模块,该项目是由[Invisig0th Kenshoto](   visi.kenshoto/viki/MainPage)发起的,专门用来处理二进制分析。 Vstruct的开发和测试已经有许多年头了,并且已经集成到了许多生成环境下的系统中了。此外,这个模块不仅简单易学,而且重要的是,它还非常有趣!
113 0
|
SQL 区块链 C#
C#将本地图片转换成二进制
  C#有很多种上传图片的方式,今天介绍一种将本地图片转换成二进制保存到数据库的方式。   一、将图片转换成二进制工具   ///   /// 将本地图片转换成二进制   ///   ///   ///   public static Byte[] GetContent(string filepath)
766 0