备案控制台

开发者社区大数据文章正文

如何利用Python网络爬虫抓取微信朋友圈的动态（上）

2018-05-09 2621

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息，实际上如果单独的去爬取朋友圈的话，难度会非常大，因为微信没有提供向网易云音乐这样的API接口，所以很容易找不到门。

今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息，实际上如果单独的去爬取朋友圈的话，难度会非常大，因为微信没有提供向网易云音乐这样的API接口，所以很容易找不到门。不过不要慌，小编在网上找到了第三方工具，它可以将朋友圈进行导出，之后便可以像我们正常爬虫网页一样进行抓取信息了。

【出书啦】就提供了这样一种服务，支持朋友圈导出，并排版生成微信书。本文的主要参考资料来源于这篇博文：https://www.cnblogs.com/sheng-jie/p/7776495.html，感谢大佬提供的接口和思路。具体的教程如下。

一、获取朋友圈数据入口

1、关注公众号【出书啦】

img_687fe601ebf9befbcc7c7b33086aec5c.jpe

2、之后在主页中点击【创作书籍】-->【微信书】。

img_8ddc1d9c45328b5759c5377e32dfc75b.jpe

3、点击【开始制作】-->【添加随机分配的出书啦小编为好友即可】，长按二维码之后便可以进行添加好友了。

4、之后耐心等待微信书制作，待完成之后，会收到小编发送的消息提醒，如下图所示。

至此，我们已经将微信朋友圈的数据入口搞定了，并且获取了外链。

确保朋友圈设置为【全部开放】，默认就是全部开放，如果不知道怎么设置的话，请自行百度吧。

img_bde63694c0b35114420be9c75d72057e.jpe

5、点击该外链，之后进入网页，需要使用微信扫码授权登录。

6、扫码授权之后，就可以进入到微信书网页版了，如下图所示。

img_797001dc677268f0a5808a274f0fba56.jpe

7、接下来我们就可以正常的写爬虫程序进行抓取信息了。在这里，小编采用的是Scrapy爬虫框架，Python用的是3版本，集成开发环境用的是Pycharm。下图是微信书的首页，图片是小编自己自定义的。

img_847e79163a581e2f50878e455159b91a.jpe

二、创建爬虫项目

1、确保您的电脑上已经安装好了Scrapy。之后选定一个文件夹，在该文件夹下进入命令行，输入执行命令：

scrapy startproject weixin_moment

，等待生成Scrapy爬虫项目。

2、在命令行中输入cd weixin_moment，进入创建的weixin_moment目录。之后输入命令：

scrapy genspider 'moment' 'chushu.la'

，创建朋友圈爬虫，如下图所示。

img_d700e445f7bce2168b988cc80ef009ba.jpe

3、执行以上两步后的文件夹结构如下：

img_c3f6e5e2c4eda1f6be1f12587083c7cf.jpe

三、分析网页数据

1、进入微信书首页，按下F12，建议使用谷歌浏览器，审查元素，点击“Network”选项卡，然后勾选“Preserve log”，表示保存日志，如下图所示。可以看到主页的请求方式是get，返回的状态码是200，代表请求成功。

img_cdb5fbe56a4cc1778acdd078abdf71ab.jpe

2、点击“Response”（服务器响应），可以看到系统返回的数据是JSON格式的。说明我们之后在程序中需要对JSON格式的数据进行处理。

img_ee3d67ef0e16ee7ad03c3d5b7f160dd3.jpe

3、点击微信书的“导航”窗口，可以看到数据是按月份进行加载的。当点击导航按钮，其加载对应月份的朋友圈数据。

img_7a6fd07029346b60e3c4ab11e8058f17.jpe

4、当点击【2014/04】月份，之后查看服务器响应数据，可以看到页面上显示的数据和服务器的响应是相对应的。

img_2f895e0dff209a44bfd602a06c5e827c.jpe

5、查看请求方式，可以看到此时的请求方式变成了POST。细心的伙伴可以看到在点击“下个月”或者其他导航月份的时候，主页的URL是始终没有变化的，说明该网页是动态加载的。之后对比多个网页请求，我们可以看到在“Request Payload”下边的数据包参数不断的发生变化，如下图所示。

img_550f121853c24ff6c6e0018d6882e57a.jpe

6、展开服务器响应的数据，将数据放到JSON在线解析器里，如下图所示：

img_d24c36ceb81d485a5ec9f0a65c6b2e6f.jpe

可以看到朋友圈的数据存储在paras /data节点下。

至此，网页分析和数据的来源都已经确定好了，接下来将写程序，进行数据抓取，敬请期待下篇文章~~

文章标签：

Python

数据采集

数据格式

JSON

关键词：

Python爬虫

Python网络

Python网络爬虫

爬虫抓取

爬虫python

python进阶者

目录

相关文章

子午s

|

2月前

|

机器学习/深度学习人工智能算法

猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法

宠物识别系统使用Python和TensorFlow搭建卷积神经网络，基于37种常见猫狗数据集训练高精度模型，并保存为h5格式。通过Django框架搭建Web平台，用户上传宠物图片即可识别其名称，提供便捷的宠物识别服务。

子午s

347 55 55

小白学大数据

|

3月前

|

数据采集缓存定位技术

网络延迟对Python爬虫速度的影响分析

网络延迟对Python爬虫速度的影响分析

小白学大数据

82 1 1

mrq4nk6ni2neg

|

3月前

|

Python

Python中的异步编程：使用asyncio和aiohttp实现高效网络请求

【10月更文挑战第34天】在Python的世界里，异步编程是提高效率的利器。本文将带你了解如何使用asyncio和aiohttp库来编写高效的网络请求代码。我们将通过一个简单的示例来展示如何利用这些工具来并发地处理多个网络请求，从而提高程序的整体性能。准备好让你的Python代码飞起来吧！

mrq4nk6ni2neg

152 2 2

子午s

|

4天前

|

机器学习/深度学习人工智能算法

基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

蘑菇识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了9种常见的蘑菇种类数据集【"香菇（Agaricus）", "毒鹅膏菌（Amanita）", "牛肝菌（Boletus）", "网状菌（Cortinarius）", "毒镰孢（Entoloma）", "湿孢菌（Hygrocybe）", "乳菇（Lactarius）", "红菇（Russula）", "松茸（Suillus）"】再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型，然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面，

子午s

41 11 11

基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能

bruce_xiaowei

|

2月前

|

Python

自动化微信朋友圈：Python脚本实现自动发布动态

本文介绍如何使用Python脚本自动化发布微信朋友圈动态，节省手动输入的时间。主要依赖`pyautogui`、`time`、`pyperclip`等库，通过模拟鼠标和键盘操作实现自动发布。代码涵盖打开微信、定位朋友圈、准备输入框、模拟打字等功能。虽然该方法能提高效率，但需注意可能违反微信使用条款，存在风险。定期更新脚本以适应微信界面变化也很重要。

bruce_xiaowei

200 61 62

土木林森

|

3月前

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

189 6 6

蓝易云

|

23天前

|

安全 Linux 网络安全

利用Python脚本自动备份网络设备配置

通过本文的介绍，我们了解了如何利用Python脚本自动备份网络设备配置。该脚本使用 `paramiko`库通过SSH连接到设备，获取并保存配置文件。通过定时任务调度，可以实现定期自动备份，确保网络设备配置的安全和可用。希望这些内容能够帮助你在实际工作中实现网络设备的自动化备份。

蓝易云

48 14 14

子午s

|

2月前

|

机器学习/深度学习人工智能算法

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

宠物识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫（Abyssinian）', '孟加拉猫（Bengal）', '暹罗猫（Birman）', '孟买猫（Bombay）', '英国短毛猫（British Shorthair）', '埃及猫（Egyptian Mau）', '缅因猫（Maine Coon）', '波斯猫（Persian）', '布偶猫（Ragdoll）', '俄罗斯蓝猫（Russian Blue）', '暹罗猫（Siamese）', '斯芬克斯猫（Sphynx）', '美国斗牛犬

子午s

220 29 29

【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别

奔跑的数据

|

3月前

|

数据采集 JSON JavaScript

如何通过PHP爬虫模拟表单提交，抓取隐藏数据

本文介绍了如何使用PHP模拟表单提交并结合代理IP技术抓取京东商品的实时名称和价格，特别是在电商大促期间的数据采集需求。通过cURL发送POST请求，设置User-Agent和Cookie，使用代理IP绕过限制，解析返回数据，展示了完整代码示例。

奔跑的数据

69 3 3

如何通过PHP爬虫模拟表单提交，抓取隐藏数据

路边两盏灯

|

3月前

|

安全 Windows

【Azure Cloud Service】在Windows系统中抓取网络包 ( 不需要另外安全抓包工具）

通常，在生产环境中，为了保证系统环境的安全和纯粹，是不建议安装其它软件或排查工具（如果可以安装，也是需要走审批流程）。本文将介绍一种，不用安装Wireshark / tcpdump 等工具，使用Windows系统自带的 netsh trace 命令来获取网络包的步骤

路边两盏灯

102 32 32

热门文章

最新文章

基于昇腾用PyTorch实现传统CTR模型WideDeep网络

PaSa：字节跳动开源学术论文检索智能体，自动调用搜索引擎、浏览相关论文并追踪引文网络

阿里云基础设施网络2024年创新总结

PyTorch生态系统中的连续深度学习：使用Torchdyn实现连续时间神经网络

RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet，超级精简高效的轻量化模块

RT-DETR改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块，获取局部和全局信息

RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构

小白学网络系列之---从物理网络到云网络

Linux（openwrt）下iptables+tc工具实现网络流量限速控制（QoS）

【算法合规新时代】企业如何把握“清朗·网络平台算法典型问题治理”专项行动？

Python爬虫实战：股票分时数据抓取与存储

SurfGen爬虫：解析HTML与提取关键数据

深度解析：使用ChromeDriver和webdriver_manager实现无头浏览器爬虫

深入理解Docker：为你的爬虫项目提供隔离环境

Python爬虫：京东商品评论内容

jsdom爬虫程序中eBay主页内容爬取的异步处理

Python爬虫与1688图片搜索API接口：深度解析与显著收益

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

异步请求在TypeScript网络爬虫中的应用

网络爬虫性能提升：requests.Session的会话持久化策略

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

以电商场景为例搭建AI语义搜索应用

用Python画圣诞树

通过云拨测对指定网页进行网页性能监测

高性能特性体验：ePQ 的详解与实战

Python选择及循环结构

云端Python及基本操作

推荐镜像

更多

python-release

nodejs-release

linuxmint-packages

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型