3、可视化展示
1)买电脑最关注哪些参数?
add_word = ['联想','惠普','酷睿','苹果','三星','华硕','索尼','宏碁','戴尔','海尔','长城','海尔','神舟','清华同方','方正','明基'] for i in add_word: jieba.add_word(i) df["切分后的描述信息"] = df["描述信息"].apply(lambda x:jieba.lcut(x)) # 读取停用词 with open("stoplist.txt", encoding="utf8") as f: stop = f.read() stop = stop.split() stop = [" ","笔记本电脑"] + stop stop[:10] # 去掉停用词 df["切分后的描述信息"] = df["切分后的描述信息"].apply(lambda x: [i for i in x if i not in stop]) # 词频统计 all_words = [] for i in df["切分后的描述信息"]: for j in i: all_words.extend(i) word_count = pd.Series(all_words).value_counts() # 绘制词云图 # 1、读取背景图片 back_picture = imread("aixin.jpg") # 2、设置词云参数 wc = WordCloud(font_path="G:\\6Tipdm\\wordcloud\\simhei.ttf", background_color="white", max_words=2000, mask=back_picture, max_font_size=200, random_state=42 ) wc2 = wc.fit_words(word_count) # 3、绘制词云图 plt.figure(figsize=(16,8)) plt.imshow(wc2) plt.axis("off") plt.show() wc.to_file("电脑.png")
效果如下:
从上图可以看出:“轻薄”、“游戏”、“学生”、“商务”这三个词被提及的次数最多。其次大家关注最多的是“办公”、“便携”、“英寸”。从电脑牌子可以看出 , “酷睿”和“联想”的销量最大,“华硕”的其次。从性能参数来看,“i7”牌子的电脑,销量高于“i5”牌子的电脑,想当年我买电脑的时候,还是“i5”刚刚普及的时候。
2)不同电脑品牌的销量信息
从上图可以看出:销售量排名前3的电脑分别是“联想”、“酷睿”、“苹果”,其次是“华硕”、“戴尔”、“惠普”。
3)电脑需求量最大的前十个城市
从图中可以看出:四个一线城市“北京”、“上海”、“广州”、“深圳”对于电脑的需求量肯定是最大的。其次“南京”、“杭州”对于电脑的需求较大。
4)电脑销售量最好的前十个店铺
从图中可以看出:“联想官方旗舰店”的电脑卖的是最好的,其次是“华为官方旗舰店”。相信大家看了这个分析以后,就知道自己应该怎么选择店铺,去选购自己的电脑了。
5)价格最贵的电脑到底是啥样的?
# 将数据按照价格,降序排序 df1 = df.sort_values(by="价格", axis=0, ascending=False) df1 = df1.iloc[:10,:] df1.to_excel("价格 排名前10的数据.xlsx",encoding="utf-8-sig",index=None)
结果如下:
根据上表展示的数据中可以看出:电脑最贵的电脑达到了48948元,不知道你见过没有,反正我是没有见过。该电脑的宣传视频,见文章最开始,具体信息是怎么样子的,你可以自己下去查看。