Python实战 | 送亲戚,送长辈,“ 月饼 ”可视化大屏来帮忙!

简介: Python实战 | 送亲戚,送长辈,“ 月饼 ”可视化大屏来帮忙!

数据采集

这次爬取淘宝,采用的是最简单的方式:Selenium控制Chrome浏览器进行自动化操作,中途只需要扫码登陆一次,即可完成整个数据的爬取。


这种方法及其好用,不会出现封IP、封号的情况,大家放心使用!


大家运行这个代码之前,唯一要做的就是下载与谷歌版本相对应的chromedriver驱动,然后进行相关配置即可。其实关于淘宝整个数据爬取的过程,我之前为大家写了一篇狠详细的文章,供大家参考。http://suo.im/6vwBc8


部分爬虫代码如下,详细代码可以去文末获取!


from selenium import webdriver
# 搜索商品,获取商品页码
def search_product(key_word):
    # 定位输入框
    browser.find_element_by_id("q").send_keys(key_word)
    # 定义点击按钮,并点击
    browser.find_element_by_class_name('btn-search').click()
    # 最大化窗口:为了方便我们扫码
    browser.maximize_window()
    # 等待15秒,给足时间我们扫码
    time.sleep(15)
    # 定位这个“页码”,获取“共100页这个文本”
    page_info = browser.find_element_by_xpath('//div[@class="total"]').text
    # 需要注意的是:findall()返回的是一个列表,虽然此时只有一个元素它也是一个列表。
    page = re.findall("(\d+)",page_info)[0]
    return page

数据清洗

数据清洗很重要,这个对于我们后续做可视化展示,极其重要。因此我们需要根据后面要做的图形,然后进行对应的进行数据清洗。


爬取到的原始数据如下:

image.png

整个数据看上去算是比较干净,但是还是有几个地方指的我们处理一下。


爬取到的原始数据没有列名,我们需要添加一个新列名;

整个爬虫过程中,会出现重复数据,我们需要提前去重处理;

将购买人数为空的记录,替换成0人付款;

将购买人数转换为销量(注意部分单位为万);

删除无发货地址的商品,并提取其中的省份;

数据清洗部分代码如下:


# 提取数值
df['num'] = [re.findall(r'(\d+\.{0,1}\d*)', i)[0] for i in df['付款人数']]  # 提取数值
df['num'] = df['num'].astype('float')  # 转化数值型
# 提取单位(万)
df['unit'] = [''.join(re.findall(r'(万)', i)) for i in df['付款人数']]  # 提取单位(万)
df['unit'] = df['unit'].apply(lambda x:10000 if x=='万' else 1)
# 计算销量
df['销量'] = df['num'] * df['unit']


现在来看看,清洗后的数据是啥样的?

image.png


可视化展示

可视化是整个文章的亮点所在,所谓“字不如表、表不如图”。整个可视化大屏我们基于以下五个问题开展而来。


月饼销量Top10的柱形图;

店铺月饼销量Top10的柱形图;

全国月饼销量的地域分布地图;

不同价格区间的月饼销量圆环图;

月饼销售关键字的词云图;

鉴于整个文章排版,本文可视化部分的代码均可在本文末尾获取。


1)月饼销量Top10的柱形图

image.png

结论:销量Top10的月饼,其实对于我们选购月饼还是挺有指导意义的。从图中可以看到这个稻香村月饼,买的还是极其好的,销量排名前10的产品中,稻香村月饼占据了3个位置。还有一个名字特别熟悉:五芳斋,只知道他家的粽子做的好,原来月饼也做的不错,所以说品牌效应还是很好的。那么你是否可以再看看,这些店里面是否有其他更好吃的点心呢?


2)店铺月饼销量Top10的柱形图

image.png

结论分析:这里图中显示的结果,和第一张图显示的结果不谋而合,就不再过多的解释了。唯独感兴趣的还是这个稻香村,为啥销量如此好?百度一下得知原来是一家百年老店,附带一张图如下。

image.png


3)全国月饼销量的地域分布地图


结论分析:从图中可以看出,广东、浙江、山东、福建、北京的月饼销量,在全国都是遥遥领先的。查阅资料可以发现,它们几乎都有自己的品牌,像广东的广式月饼、浙江的衢式月饼、山东的鲁式月饼等。广式月饼重油重糖、京式月饼重油轻糖、鲁式月饼口味清淡、苏式月饼重甜。大家可以根据自己的需求,给亲戚长辈们合理挑选符合口味的月饼哦。


4)不同价格区间的月饼销量圆环图

image.png

结论分析:当然,价格才是大家关注的焦点。观察上面的圆环图可以发现,大多数月饼的价格都是处在中间的、能被大家接受的范围(22-115),再稍微贵一点的就是115-633这个区间,而处在633元以上的归月几乎为0。毕竟中秋节是一个传统节日,适中的价格才能被大家接受,利润就这么几天,薄利多销才是王道。

image.png

5)月饼销售关键字的词云图


结论分析:从图中可以看出,广式月饼极其受欢迎(PS:我还没吃过),其次小时候经常吃的五仁月饼一直卖的挺好,豆沙月饼还一直是很多孩子的最爱呀!还有现在出来的各种各样的新鲜口味,像美心、酥皮、信奈、燕窝、白莲等等,你到底喜欢哪一个呢?


相关文章
|
4天前
|
机器学习/深度学习 自然语言处理 数据可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
16 1
|
1天前
|
机器学习/深度学习 数据可视化 TensorFlow
Python中TensorFlow的长短期记忆神经网络(LSTM)、指数移动平均法预测股票市场和可视化
Python中TensorFlow的长短期记忆神经网络(LSTM)、指数移动平均法预测股票市场和可视化
|
3天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
14 0
|
3天前
|
机器学习/深度学习 数据可视化 数据挖掘
PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化
PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化
|
4天前
|
机器学习/深度学习 数据采集 数据可视化
数据分享|PYTHON可视化探索新冠疫情病毒与失业率是否存在线性关系
数据分享|PYTHON可视化探索新冠疫情病毒与失业率是否存在线性关系
11 0
|
4天前
|
人工智能 安全 Java
Python 多线程编程实战:threading 模块的最佳实践
Python 多线程编程实战:threading 模块的最佳实践
119 5
|
5天前
|
数据可视化 Python
R语言和Python对copula模型Gaussian、t、Clayton 和Gumbel族可视化理论概念和文献计量使用情况
R语言和Python对copula模型Gaussian、t、Clayton 和Gumbel族可视化理论概念和文献计量使用情况
|
4天前
|
机器学习/深度学习 数据挖掘 API
pymc,一个灵活的的 Python 概率编程库!
pymc,一个灵活的的 Python 概率编程库!
10 1
|
4天前
|
人工智能 算法 调度
uvloop,一个强大的 Python 异步IO编程库!
uvloop,一个强大的 Python 异步IO编程库!
16 2
|
4天前
|
机器学习/深度学习 人工智能 数据可视化
Python:探索编程之美
Python:探索编程之美
9 0