Python分布式抓取和分析京东商城评价-阿里云开发者社区

Python分布式抓取和分析京东商城评价

2018-03-14 1544

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 互联网购物现在已经是非常普遍的购物方式，在互联网上购买商品并且使用之后，很多人都会回过头来对自己购买的商品进行一些评价，以此来表达自己对于该商品使用后的看法。商品评价的好坏对于一个商品的重要性显而易见，大部分消费者都以此作为快速评判该商品质量优劣的方式。

互联网购物现在已经是非常普遍的购物方式，在互联网上购买商品并且使用之后，很多人都会回过头来对自己购买的商品进行一些评价，以此来表达自己对于该商品使用后的看法。商品评价的好坏对于一个商品的重要性显而易见，大部分消费者都以此作为快速评判该商品质量优劣的方式。所以，与此同时，有些商家为了获得好评，还会做一些 "好评优惠" 或者 "返点" 活动来刺激消费者评价商品。

既然商品评价对于消费者选购商品而言至关重要，那么我想试试可以从这些评价信息中获取到怎样的价值，来帮助消费者快速获取到关于该商品的一些重要信息，给他们的购物带来更加可靠地保证？

所以，我认为,一种快速、全面、高提炼度和高对比度的信息获取和展示方式将会非常必要。于是，我采用分布式快速抓取京东的评价信息，然后使用 pandas 对抓取到的数据进行分析。

话不多说先附上使用地址
体验地址：http://awolfly9.com/jd/

想要分析京东商城的商品评价信息，那么需要做些什么呢

采用分布式抓取，尽量在短时间内抓取需要分析的商品足够多的评价信息

将抓取到的评价信息都存储到数据库

从数据库中取出所有数据进行数据分析

生成好评的词云，并且获取关键字
生成中评的词云，并且获取关键字
生成差评的词云，并且获取关键字
分析购买该商品不同颜色的比例，生成柱状图
分析购买该商品不同配置的比例，生成柱状图
分析该商品的销售数量和评论数量和时间的关系，生成时间则线图
分析该商品不同省份购买的的比例，生成柱状图
分析该商品不同渠道的销售比例，生成柱状图

利用 Django 搭建后台，将数据抓取和数据分析连起来

前端显示数据抓取和分析结果

分布式抓取京东商城的评价信息

采用分布式抓取的目的是快速的在短时间内尽量抓取足够多的商品评价,使分析结果更精确

以 iPhone7 https://item.jd.com/3995645.html 为例，通过 Chrome 抓包分析出京东商城的评价请求 URl https://club.jd.com/comment/productPageComments.action?

callback=fetchJSON_comment98vv2940&productId=3995645&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0

找出评价请求 URL 规律，获取到如下 URL 组合链接

利用 Chrome 插件 Postman 测试链接是否可用，发现京东获取评价信息并没有验证 Cookie 之类的反爬措施

开始编码利用 scrapy 抓取京东商城的商品评价信息并存入数据库以备使用

数据分析

从数据库中取出相应数据，开始分析

使用 python 的扩展库 wordcloud 分别提取好评、中评、差评的关键字，并且生成相应的词云图片

分析该商品不同颜色的销量占比，并且生成柱状图，例如 iphone7 的不同颜色金色、玫瑰金色、银色、黑色、亮黑色、还有最新出的红色的占比

分析该商品不同配置的销量占比，并且生成柱状图，例如 iphone7 32G 、 64G、128G 存储

分析该商品销售和评论时间并且生成折线图，分析出商品在什么时间最畅销

分析用户购买该商品的渠道，例如用户通过京东 Android 客户端、微信京东购物、京东 iPhone 客户端购物的比例，并且生成柱状图

分析购买该商品的用户的地域省份。例如北京、上海、广州那个城市在京东上购买 iPhone7 的人更多

将以上分析结果都存储保留

Django 后台 WEB

使用 Django 搭建一个简易的后台 jd_analysis，将分布式抓取数据和数据分析连起来，并且将分析结果返回前端显示。

jd_analysis 提供一个接口接受用户请求分析的京东商城商品的 URL 链接

jd_analysis 接受到商品链接后开启爬虫进程开始抓取需要分析的商品的名称和评价数量
组合出完整的评价链接插入到 redis 中，实现分布式爬虫抓取，尽可能在短时间内抓取足够多的该商品评价信息（我现在是 30s 时间大概可以抓取 3000 条评价信息）

主服务器等待一定的抓取时间，例如主服务器等待 30s，30s 后一定要给前端返回分析结果，所以等 30s 后清空 redis 中该商品的链接，从服务器没有读取不到需要抓取的链接也就自动关闭

开启分析进程，开始分析抓取到的所有数据，并且生成图标等信息

前端展示

在客户端第一次请求时，生成一个 GUID，并且存储在 cookie 中。然后开启一个定时器，带上 GUID 不断的向 jd_analysis 后台请求结果。jd_analysis 后台利用请求的 GUID 从 redis 中获取抓取信息和分析结果的所有内容，返回给前端。前端显示请求到的结果。

最后附上两张效果图

购买和评论时间折线图

购买渠道柱状图

大功告成

以上就是完整的抓取京东商品的评价信息并且使用 pandas 分析评价然后利用 Django 搭建后台前端显示抓取和分析结果的所有步骤。

原文发布时间为：2017-04-19

本文作者：awolfly9

本文来自云栖社区合作伙伴“Python中文社区”，了解相关信息可以关注“Python中文社区”微信公众号