《精通Python网络爬虫：核心技术、框架与项目实战》——2.3　用户爬虫的那些事儿-阿里云开发者社区

《精通Python网络爬虫：核心技术、框架与项目实战》——2.3　用户爬虫的那些事儿

2017-05-02 2561

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《精通Python网络爬虫：核心技术、框架与项目实战》一书中的第2章，第2.3节，作者韦　玮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3　用户爬虫的那些事儿

用户爬虫是网络爬虫中的一种类型。所谓用户爬虫，指的是专门用来爬取互联网中用户数据的一种爬虫。由于互联网中的用户数据信息，相对来说是比较敏感的数据信息，所以，用户爬虫的利用价值也相对较高。

利用用户爬虫可以做大量的事情，接下来我们一起来看一下利用用户爬虫所做的一些有趣的事情吧。

2015年，有知乎网友对知乎的用户数据进行了爬取，然后进行对应的数据分析，便得到了知乎上大量的潜在数据，比如：

知乎上注册用户的男女比例：男生占例多于60%。

知乎上注册用户的地区：北京的人口占据比重最大，多于30%。

知乎上注册用户从事的行业：从事互联网行业的用户占据比重最大，同样多于30%。

除此之外，只要我们细心发掘，还可以挖掘出更多的潜在数据，而要分析这些数据，则必须要获取到这些用户数据，此时，我们可以使用网络爬虫技术轻松爬取到这些有用的用户信息。

同样，在2015年，有网友爬取了3000万QQ空间的用户信息，并同样从中获得了大量潜在数据，比如：

QQ空间用户发说说的时间规律：晚上22点左右，平均发说说的数量是一天
中最多的时候。

QQ空间用户的出生月份分布：1月份和10月份出生的用户较多。

QQ空间用户的年龄阶段分布：出生于1990年到1995年的用户相对来说较多。

QQ空间用户的性别分布：男生占比多于50%，女生占比多于30%，未填性别的占10%左右。

除了以上两个例子之外，用户爬虫还可以做很多事情，比如爬取淘宝的用户信息，可以分析淘宝用户喜欢什么商品，从而更有利于我们对商品的定位等。

由此可见，利用用户爬虫可以获得很多有趣的潜在信息，那么这些爬虫难吗？其实不难，在阅读完本书后，相信你也能写出这样的爬虫。

《精通Python网络爬虫：核心技术、框架与项目实战》——2.3　用户爬虫的那些事儿

2.3　用户爬虫的那些事儿

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《精通Python网络爬虫：核心技术、框架与项目实战》——2.3 用户爬虫的那些事儿

2.3 用户爬虫的那些事儿

华章出版社

热门文章

最新文章

相关课程

相关电子书

推荐镜像

《精通Python网络爬虫：核心技术、框架与项目实战》——2.3　用户爬虫的那些事儿

2.3　用户爬虫的那些事儿