QQ空间爬虫最新分享，一天 400 万条数据（附代码地址）-阿里云开发者社区

QQ空间爬虫最新分享，一天 400 万条数据（附代码地址）

2018-03-14 2554

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

前言

本文为作者对其开源项目QQSpider的说明文档。主要替换了程序里一些不可用的链接，对登录时的验证码作了处理，对去重队列作了优化。并且可以非常简单地实现爬虫分布式扩展。

Github项目名称：QQSpider

使用说明

1、启动前配置：

需要安装的软件：python、Redis、MongoDB（Redis和MongoDB都是NoSQL，服务启动后能连接上就行，不需要建表什么的）。

需要安装的Python模块：requests、BeautifulSoup、multiprocessing、selenium、itertools、redis、pymongo。

我们登陆QQ要使用到phantomJS（下载地址：http://phantomjs.org/download.html），下载完将里面的phantomjs.exe解压到python目录下即可。

2、启动程序：

进入 myQQ.txt 写入QQ账号和密码（不同QQ换行输入，账号密码空格隔开）。如果你只是测试一下，则放三两个QQ足矣；但如果你开多线程大规模抓取的话就要用多一点QQ号（thread_num_QQ的2~10倍），账号少容易被检测为异常行为。

进入 init_messages.py进行爬虫参数的配置，例如线程数量的多少、设置爬哪个时间段的日志，哪个时间段的说说，爬多少个说说备份一次等等。

运行 launch.py 启动爬虫。

代码说明

mongodb用来存放数据，redis用来存放待爬QQ和Cookie。

爬虫之前使用的是BitVector去重，有一部分人反映经常会报错，所以现在使用基于Redis的去重，内存占用不超过512M，能容纳45亿个QQ号瞬间去重，而且方便分布式扩展。

爬虫使用phantomJS模拟登陆QQ空间，有时候会出现验证码。我使用的是云打码（自行百度），准确率还是非常高的，QQ验证码是4位纯英文，5元可以识别1000个验证码。如果需要请自行去注册购买，将账号、密码、appkey填入 yundama.py，再将public_methods.py里的dama=False改成dama=True即可。

分布式。现在已经将种子队列和去重队列都放在了Redis上面，如果需要几台机器同时爬，只需要将代码复制一份到另外一台机子，将连Redis时的localhost改成同一台机器的IP即可。如果想要将爬下来的数据保存到同一台机，也只需要将连MongoDB时的localhost改成该机器的IP即可。

为了让程序不那么复杂难懂，此项目只用了多线程，即只用到了一个CPU。如果实际生产运行的话可以考虑将程序稍作修改，换成多进程+协程，或者异步。速度会快很多。

最后提醒一下，爬虫无非就是模仿人在浏览器上网的行为，你在浏览器上无法查看的信息爬虫一般也是无法抓取。所以，就不要再问我能不能破解别人相册的这种问题了，空间加了访问权限的也无法访问。程序输出的日志中2016-11-19 01:05:33.010000 failure:484237103 (None - http://user.qzone.qq.com/484237103)这种，一般就是无法访问的QQ。还有，我们是无法查看一个QQ的所有好友的，所以爬下来的好友信息也只是部分好友。爬虫不是黑客，希望理解。

结语

爬虫是偏后台型的任务，以抓取效率为主，并没有很好的用户界面，并且需要不断地维护。所以对于完全没有编程基础的人来说，可能会遇到各种各样的问题。此项目最初的目的是为大家提供QQ空间爬虫的一种架构，并不保证程序一直能跑。只要腾讯服务器端稍有变动，例如某一个链接变了，可能程序就抓不到数据了，此时程序也要相应地将链接换成新的，如果网页结构变了，解析规则也要相应地修改。需要样本数据用于科学研究的可以邮件联系作者邮箱：bone_ace@163.com。

原文发布时间为：2016-11-25

本文作者：九茶

本文来自云栖社区合作伙伴“ Python中文社区”，了解相关信息可以关注“ Python中文社区”微信公众号

QQ空间爬虫最新分享，一天 400 万条数据（附代码地址）

Python中文社区

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

QQ空间爬虫最新分享，一天 400 万条数据（附代码地址）

Python中文社区

热门文章

最新文章

相关课程

相关电子书