Python通过抓包和使用cookie爬取微博完全讲解(附视频)

简介:

今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。

cookie是什么

某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间,一旦超过规定的时间,该 Cookie 就会被系统清除。持续的 Cookie 则保存在用户的 Cookie 文件中,下一次用户返回时,仍然可以对它进行调用。

注意:

微博中的cookie有时间限制,如果运行有问题,可以更换下cookie

如何使用cookie

Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6;
 remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2;
 CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}

我们要构造成字典格式,如上。这样应用到请求网址的时候添加到请求头中去即可(不懂也没关系,继续往下看,有视频讲说的)。

requests库

rquests is an elegant and simple HTTP library for Python, built for human beings. Requests是一个优雅简洁的Python HTTP库,给人类使用。

使用方法如下:

r=requests.get(url,cookiess = Cookie)

实战分析

cb803f41c1237b465d2ae96fc4b5519b02f68a10

那么我们打开开发者工具,抓包分析下网址验证我们的网址规律思路

抓包分析

cc1a4b0d648fc8762651f4fc0dc56ac69597821d

接下来我只是测试下,抓孔庆东微博博文的标题,如下图红色方框对应的html标签是h4

e88dfe697fc5056a6c180e6f22532812e911dbc9

代码及运行图部分

2aa32d1887a92ab052e91f427271791459b4ccca

本文视频讲解如下:

7b14f0bc87a9174a4863a72ec8298f473427680b



原文发布时间为:2017-03-21

本文作者:邓旭东

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

相关文章
WK
|
18天前
|
Python
如何在Python中导入包
在 Python 中,包是一种组织代码的方式,通过包含 `__init__.py` 文件(在 Python 3.3 及以上版本可选)的目录实现。包内可以包含多个模块(`.py` 文件)和其他子包。导入包有多种方式:整体导入包、导入特定模块、导入特定函数或类、导入子包等。推荐的做法是明确指定导入内容以提高代码的可读性和可维护性。此外,确保包目录结构正确,并将其添加到 Python 的搜索路径中。对于分发包,使用 setuptools 和 pip 等工具更为便捷。
WK
112 66
WK
|
18天前
|
Python
如何在Python中创建包
在Python中创建包十分简便,主要涉及目录结构的设置及`__init__.py`文件的配置。虽然Python 3.3后空`__init__.py`文件不再强制要求,但在特定场景下保留它有助于保持兼容性或执行包初始化代码。创建包的具体步骤包括:构建目录结构、编写模块代码、(可选)编写初始化代码等。例如,可以创建一个名为`mypackage`的目录,其中包含`__init__.py`及多个模块文件如
WK
107 62
|
5天前
|
前端开发 JavaScript 关系型数据库
基于Python+Vue开发的反诈视频宣传管理系统
基于Python+Vue开发的反诈视频宣传管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的反诈宣传管理系统项目,大学生可以在实践中学习和提升自己的能力,为以后的职业发展打下坚实基础。
16 4
WK
|
19天前
|
开发者 Python
Python中的包是什么?
在Python中,包是一种组织模块的方式,用于实现代码重用和模块化。通过包含`__init__.py`文件的目录定义包,形成树状结构,便于管理大型项目。包提高了代码的可读性和可维护性,允许重用现有代码,并避免模块名冲突。使用点操作符导入包中的模块,`__init__.py`可在包导入时执行初始化代码。从Python 3.3起,还可使用命名空间包来组织模块。掌握包的使用对大型Python项目开发至关重要。
WK
16 5
WK
|
19天前
|
开发工具 git Python
如何在Python中创建包?
在Python中创建包十分简便,主要步骤包括:创建目录(如 `mypackage`),并根据需求添加空的或含初始化代码的 `__init__.py` 文件;接着在该目录下添加 `.py` 文件作为模块;如有需要,可以进一步创建子包以形成层次结构。创建完成后,即可在其他脚本中导入并使用这些包。为避免名称冲突,请选择独特的包名,并考虑使用版本控制系统(如Git)管理代码变更。对于需分发的包,还应准备 `setup.py` 文件以方便构建与发布。
WK
16 3
|
19天前
|
存储 数据可视化 Python
使用python moviepy提取视频中的音频,同时对音频数据进行数据可视化分析
使用python moviepy提取视频中的音频,同时对音频数据进行数据可视化分析
18 0
|
22天前
|
项目管理 数据安全/隐私保护 Python
使用poetry来更优雅的管理 python 包
Poetry 的优势在于它提供了一个统一的工具来处理 Python 项目的整个生命周期,从依赖管理到打包和发布。它的依赖解析器非常强大,能够有效地处理复杂的依赖关系。此外,Poetry 还提供了一个直观的命令行界面,使得项目管理变得更加简单。 对于团队协作和项目部署来说,Poetry 的依赖锁定功能(通过 poetry.lock 文件)特别有用,因为它确保了所有环境中使用相同版本的依赖。
|
23天前
|
Python
【Azure 应用服务】如何为Web Jobs 安装Python包呢?
【Azure 应用服务】如何为Web Jobs 安装Python包呢?
【Azure 应用服务】如何为Web Jobs 安装Python包呢?
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】python之人工智能应用篇——视频生成技术
视频生成技术是一种基于深度学习和机器学习的先进技术,它使得计算机能够根据给定的文本、图像、视频等单模态或多模态数据,自动生成符合描述的、高保真的视频内容。这种技术主要依赖于深度学习模型,如生成对抗网络(GAN)、自回归模型(Auto-regressive Model)、扩散模型(Diffusion Model)等。其中,GAN由两个神经网络组成:一个生成器用于生成逼真的图像或视频,另一个判别器用于判断生成的图像或视频是否真实。通过不断的对抗学习,生成器和判别器共同优化,以产生更高质量的视频。
31 2