Pandas+Pyecharts | 上海市餐饮数据分析可视化

简介: Pandas+Pyecharts | 上海市餐饮数据分析可视化

大家好,我是欧K~

本期我们通过分析利用Python分析上海市餐饮数据,看看:

  • 哪个区的餐饮店铺分布最多
  • 各类餐饮口碑评价怎么样
  • 各类餐饮的人均消费大概定价多少
  • 各区都适合开哪些类型的店铺
  • ...

希望对小伙伴们有所帮助,如有疑问或者需要改进的地方可以私信小编。

涉及到的库:

  • Pandas — 数据处理
  • Pyecharts — 数据可视化
  • matplotlib — 数据可视化

可视化部分:

  • 饼图 — Pie
  • 柱状图 — Bar
  • 地图 — Map
  • 组合组件 — Grid


1. 导入模块

import numpy as np
import pandas as pd
from collections import Counter
from pyecharts.charts import Pie
from pyecharts.charts import Bar
from pyecharts.charts import Grid
from pyecharts.charts import Page
from pyecharts.charts import Map
from pyecharts import options as opts
from pyecharts.commons.utils import JsCode
import matplotlib.pyplot as plt
from mpl_toolkits.axes_grid1.inset_locator import inset_axes
plt.rcParams['font.sans-serif'] = ['SimHei']

2. Pandas数据处理

2.1 读取数据

df = pd.read_csv('上海餐饮数据.csv')
df.head()


2.2 去除最后两行无用的列

df = df.iloc[:,:-2]
df.head()


2.3 查看索引、数据类型和内存信息

一共 96398 条信息,其中类别和行政区这两个字段有数据缺失。2.4 清除空值

df.isnull().sum()
df = df.dropna()

2.5 行政区替换

卢湾区目前已经划入黄浦区,所以将行政区列中的卢湾区替换成黄浦区:

df['行政区'] = df['行政区'].str.strip()
df['行政区'] = df['行政区'].replace('卢湾区','黄浦区')

3. Pyecharts数据可视化

3.1 上海各类餐饮店数量分布玫瑰图/各区餐饮店数量分布

def get_pie(regions, region_count, category, count, mean, size, colors):    
    num= len(size)
    width = 2 * np.pi / num
    rad = np.cumsum([width] * num)
    plt.figure(figsize=(8, 8),dpi=500)
    ax = plt.subplot(projection='polar')
    ax.set_ylim(-1, np.ceil(max(size) + 1))
    ax.set_theta_zero_location('N',-5.0)
    ax.set_theta_direction(1)
    ax.grid(False)
    ax.spines['polar'].set_visible(False)
    ax.set_yticks([])
    ax.set_thetagrids([])
    ax.bar(rad, size, width=width, color=colors, alpha=1)
    ax.bar(rad, 1, width=width, color='white', alpha=0.15)
    ax.bar(rad, 3, width=width, color='white', alpha=0.1)
    ax.bar(rad, 5, width=width, color='white', alpha=0.05)
    ax.bar(rad, 7, width=width, color='white', alpha=0.03)
    # 设置text
    for i in np.arange(num):
        if i < 8:
            ax.text(rad[i], size[i]-0.2, f'{category[i]}\n{count[i]}家\n({mean[i]})', rotation=rad[i] * 180 / np.pi -5,
                    rotation_mode='anchor', fontstyle='normal', fontweight='black', color='white', size=size[i]/2.2,
                    ha="center", va="top" )
        elif i < 15:
            ax.text(rad[i]+0.02, size[i]-0.7, f'{category[i]}\n{count[i]}家\n({mean[i]})', fontstyle='normal',
                    fontweight='black', color='white', size=size[i] / 1.6, ha="center" )
        else:
            ax.text(rad[i], size[i]+0.1, f'{category[i]} {count[i]}家 ({mean[i]})', rotation=rad[i] * 180 / np.pi + 85,
                    rotation_mode='anchor', fontstyle='normal', fontweight='black', color='black', size=4,
                    ha="left", va="bottom" )
    cell_width = 20  
    cell_height = 5
    axins1=inset_axes(ax,width=3.05, height=cell_height-0.6, loc=1)
    regions_len = len(regions)
    ncols = 2
    nrows = regions_len // ncols + int(regions_len % ncols > 0)
    axins1.set_xlim(0,cell_width*3.5)
    axins1.set_ylim(cell_height* (nrows-0.5),1-cell_height/2.)
    axins1.yaxis.set_visible(False)
    axins1.xaxis.set_visible(False)
    axins1.set_axis_off()
    for i in range(regions_len):
        row = i % nrows
        col = i // nrows
        y = row*2
        text_pos_x = cell_width * col + 10
        axins1.text(text_pos_x-5, y, str(region_count[i]), fontsize=4,color='#FAFAFA',fontweight='bold',
                    horizontalalignment='left',verticalalignment='center',backgroundcolor="#EC407A"
                   )
        axins1.text(text_pos_x, y, regions[i], fontsize=4,color='#3F51B5',fontweight='bold',
                    horizontalalignment='left',verticalalignment='center'
                   )
    plt.show()


  • 店铺较多的餐饮为甜点、快餐、咖啡厅、西餐等,紧随其后是浙菜、川菜、火锅、烧烤等类型

3.2 各餐饮类型人均消费

bar = (
    Bar(init_opts=opts.InitOpts(theme='dark', width='1000px', height='1000px',bg_color='#0d0735'))
    .add_xaxis(df_category_mean_tmp['类别'].tolist())
    .add_yaxis("", df_category_mean_tmp['人均消费'].tolist())
    .set_series_opts(label_opts=opts.LabelOpts(position="right",
                                              font_size=12,
                                              font_weight='bold',
                                              formatter='{c} 元'),
                    )
    .set_global_opts(
                    xaxis_opts=opts.AxisOpts(is_show=False,),
                    yaxis_opts=opts.AxisOpts(
                        axislabel_opts=opts.LabelOpts(font_size=13,color='#fff200'),
                        axistick_opts=opts.AxisTickOpts(is_show=False),
                        axisline_opts=opts.AxisLineOpts(is_show=False)
                    ),
                    title_opts=opts.TitleOpts(title="各餐饮类型人均消费",pos_left='center',pos_top='1%',
                              title_textstyle_opts=opts.TextStyleOpts(font_size=22,color="#38d9a9")),
                    visualmap_opts=opts.VisualMapOpts(is_show=False,
                                      min_=5,
                                      max_=140,
                                      is_piecewise=False,
                                      dimension=0,),
                    )
    .reversal_axis()
)


  • 甜点、快餐的人均售价大概在15-20元之间,这也符合上海快节奏的城市生活
  • 店铺数量较多餐饮类型的人均消费基本都在100以内

3.3 上海各区餐饮店数量地图分布

地图:

m0 = (
        Map(init_opts=opts.InitOpts(width='1000px', height='800px',bg_color='#0d0735'))
        .add('',
             [list(z) for z in zip(regions, region_count)],
             '上海',
             is_map_symbol_show=False,
            )
        .set_global_opts(
            title_opts=opts.TitleOpts(
                  title="上海各区餐饮店数量分布", pos_left="center", pos_top='1%',
                  subtitle='<制图@公众号:Python当打之年>', item_gap=5,
                  title_textstyle_opts=opts.TextStyleOpts(
                      font_size=24, font_weight="bold",
                      color="#DC143C",
                  ),
                  subtitle_textstyle_opts=opts.TextStyleOpts(color="#94d82d", font_size=14, font_weight="bold")
            ),
            visualmap_opts=opts.VisualMapOpts(
                max_= 13000,
                is_piecewise=True,
                is_show=True,
                split_number = 10,
                pos_top='40%',
                pos_left='10%',
            ),
        )
    )

柱状图:

bar = (
    Bar(init_opts=opts.InitOpts(theme='dark', width='1000px', height='300px',bg_color='#0d0735' ))
    .add_xaxis(regions)
    .add_yaxis("", region_count)
    .set_series_opts(label_opts=opts.LabelOpts(position="insideBottom",
                                              font_size=10,
                                              rotate='90',
                                              vertical_align='middle',
                                              horizontal_align='left',
                                              font_weight='bold',
                                              color='#e7298a',
                                              formatter='{b}: {c} 家'),
                    markline_opts=opts.MarkLineOpts(
                        data=[opts.MarkLineItem(name="平均:",
                                                type_ = 'average',)],
                        label_opts=opts.LabelOpts(is_show=False))
    )
    .set_global_opts(
        xaxis_opts=opts.AxisOpts(is_show=False, boundary_gap=False),
        yaxis_opts=opts.AxisOpts(is_show=False),
        visualmap_opts=opts.VisualMapOpts(
            is_piecewise=True,
            split_number = 10,
            is_show=False,
            max_=13000,),
        title_opts=opts.TitleOpts(
            title=f"各区平均店铺:{df_region['数量'].mean().round(2)}家",
            pos_right="10%",
            pos_top='45%',
            title_textstyle_opts=opts.TextStyleOpts(font_size=13)
        ),
        tooltip_opts=opts.TooltipOpts(
            is_show=True),
    )
)


  • 上海市各区中浦东新区的餐饮店铺数量最多,超过12000家
  • 闵行区、黄浦区、徐汇区、宝山区、松江区、嘉定区、长宁区、杨浦区、普陀区的餐饮店铺数量也在5000家以上

3.4 各区餐饮口味好评率、环境好评率、服务好评率

注:好评为评分8.0分以上

  • 静安区、黄浦区、长宁区、徐汇区等几个区的店铺口味好评率、环境好评率、服务好评率都在20%以上

3.5 各餐饮类型口味好评率、环境好评率、服务好评率

  • 南菜、素菜、本菜、亚菜、火锅等几个餐饮类别口味好评率、环境好评率、服务好评率普遍较高

4. 在线运行地址

篇幅原因,部分代码未展示,在线运行地址(含源码)

https://www.heywhale.com/mw/project/62c7d80db04acf0ba422e96cEND


以上就是本期为大家整理的全部内容了,赶快练习起来吧,如果需要数据文件,可以在公众号后台回复  上海餐饮 获取喜欢的朋友可以点赞、点在看也可以分享让更多人知道

相关文章
|
11天前
|
数据采集 数据可视化 数据挖掘
利用Python和Pandas库优化数据分析流程
在当今数据驱动的时代,数据分析已成为企业和个人决策的重要依据。Python作为一种强大且易于上手的编程语言,配合Pandas这一功能丰富的数据处理库,极大地简化了数据分析的流程。本文将探讨如何利用Python和Pandas库进行高效的数据清洗、转换、聚合以及可视化,从而优化数据分析的流程,提高数据分析的效率和准确性。
|
11天前
|
SQL 数据采集 数据挖掘
构建高效的Python数据处理流水线:使用Pandas和NumPy优化数据分析任务
在数据科学和分析领域,Python一直是最受欢迎的编程语言之一。本文将介绍如何通过使用Pandas和NumPy库构建高效的数据处理流水线,从而加速数据分析任务的执行。我们将讨论如何优化数据加载、清洗、转换和分析的过程,以及如何利用这些库中的强大功能来提高代码的性能和可维护性。
|
11天前
|
数据可视化 数据挖掘 BI
【Python】—— pandas 数据分析
【Python】—— pandas 数据分析
|
11天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
11天前
|
机器学习/深度学习 数据采集 数据可视化
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
R语言电影数据分析:随机森林探索电影受欢迎程度因素、参数调优可视化
|
11天前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
11天前
|
SQL 数据采集 数据可视化
使用Python Pandas实现两表对应列相加(即使表头不同)
使用Python Pandas实现两表对应列相加(即使表头不同)
33 3
|
5天前
|
数据采集 数据可视化 数据处理
利用Python和Pandas库实现高效的数据处理与分析
在大数据和人工智能时代,数据处理与分析已成为不可或缺的一环。Python作为一门强大的编程语言,结合Pandas库,为数据科学家和开发者提供了高效、灵活的数据处理工具。本文将介绍Pandas库的基本功能、优势,并通过实际案例展示如何使用Pandas进行数据清洗、转换、聚合等操作,以及如何利用Pandas进行数据可视化,旨在帮助读者深入理解并掌握Pandas在数据处理与分析中的应用。
|
5天前
|
架构师 数据挖掘 Python
最全pandas库(Python),2024年最新阿里云架构师面试
最全pandas库(Python),2024年最新阿里云架构师面试
最全pandas库(Python),2024年最新阿里云架构师面试
|
7天前
|
数据挖掘 数据处理 Python
【Python DataFrame 专栏】深入探索 pandas DataFrame:高级数据处理技巧
【5月更文挑战第19天】在 Python 数据分析中,pandas DataFrame 是核心工具。本文介绍了几个高级技巧:1) 横向合并 DataFrame;2) 数据分组与聚合;3) 处理缺失值;4) 数据重塑;5) 条件筛选;6) 使用函数处理数据。掌握这些技巧能提升数据处理效率和分析深度,助你更好地发掘数据价值。
【Python DataFrame 专栏】深入探索 pandas DataFrame:高级数据处理技巧