中国经济数据可视化分析

简介: 中国经济数据可视化分析

样例



代码


1. # coding: utf-8
2. 
3. # 在本次实验中我们分析 2018-06-28到2022-11-28中国每个月的进出口差额(亿美元),大城市失业率(%),消费平零售总额(亿人民币)这三组数据之间的关联 
4. 
5. # 首先我们导入包和数据,并输出数据
6. 
7. # In[1]:
8. 
9. 
10. import numpy as np
11. import pandas as pd
12. import matplotlib.pyplot as plt 
13. import seaborn as sns
14. from sklearn.preprocessing import StandardScaler
15. import statsmodels.formula.api as smf
16. 
17. #读取工作簿和工作簿中的工作表
18. 
19. spss=pd.read_excel('经济数据分析.xls')
20. print(spss)
21. 
22. 
23. # 输出数据信息
24. 
25. # In[2]:
26. 
27. 
28. spss.info()
29. data=spss.copy()
30. 
31. 
32. # 以时间为索引进行描述性统计
33. 
34. # In[3]:
35. 
36. 
37. spss.set_index('month',inplace=True)
38. data.drop('month',axis=1,inplace=True)
39. data.describe()  
40. 
41. 
42. # 我们制作2018-06-28到2022-11-28的三项数据的折线图,以便直观的观察三者的变化
43. 
44. # In[4]:
45. 
46. 
47. import matplotlib
48. #Sequence diagram of eight variables
49. column = data.columns.tolist() 
50. fig = plt.figure(figsize=(12,3), dpi=128) 
51. for i in range(3):
52.     matplotlib.rcParams['font.sans-serif'] = ['KaiTi']
53.     plt.subplot(1,3, i + 1)  
54.     sns.lineplot(data=spss[column[i]],lw=1)  
55.     plt.ylabel(column[i], fontsize=12)
56. plt.tight_layout()
57. plt.show()
58. 
59. 
60. # 我们观察到这些数据的变化有着类似的的趋势
61. 
62. # 我们继续绘制三个数据的箱线图
63. 
64. # In[5]:
65. 
66. 
67. #boxplot
68. column = data.columns.tolist() 
69. fig = plt.figure(figsize=(12,3), dpi=128)  
70. for i in range(3):
71.     plt.subplot(1,3, i + 1)   
72.     sns.boxplot(data=data[column[i]], orient="v",width=0.5)  
73.     plt.ylabel(column[i], fontsize=12)
74. plt.tight_layout()
75. plt.show()
76. 
77. 
78. # 画核密度图
79. 
80. # In[6]:
81. 
82. 
83. 
84. column = data.columns.tolist() 
85. fig = plt.figure(figsize=(12,3), dpi=128)  
86. for i in range(3):
87.     plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
88.     plt.subplot(1,3, i + 1)   
89.     sns.kdeplot(data=data[column[i]],color='blue',shade= True) 
90.     plt.ylabel(column[i], fontsize=12)
91. plt.tight_layout()
92. plt.show()
93. 
94. 
95. # 从箱线图和核密度图可以看出数据的分布都还比较集中,没有很多异常点。
96. 
97. # 下面画所有变量两两之间的散点图
98. 
99. # In[7]:
100. 
101. 
102. sns.pairplot(data[column],diag_kind='kde')
103. plt.savefig('Scatter plot.jpg',dpi=256)
104. 
105. 
106. #  可以看到,几乎所有变量之间都有线性关系,人口有点像二次抛物线。
107. # 
108. # 画皮尔逊相关系数热力图
109. 
110. # In[8]:
111. 
112. 
113. #Pearson's correlation coefficient heatmap
114. corr = plt.figure(figsize = (10,10),dpi=128)
115. corr= sns.heatmap(data[column].corr(),annot=True,square=True)
116. plt.xticks(rotation=40)
117. 
118. 
119. #  很多X之间都存在的高的相关性,经典的最小二乘线性模型可能存在着严重的多重共线性。
120. 
121. # 进行线性回归分析
122. 
123. # In[9]:
124. 
125. 
126. import statsmodels.formula.api as smf
127. all_columns = "+".join(data.columns[1:])
128. print('x is :'+all_columns)
129. formula = '进出口差额亿美元~' + all_columns
130. print('The regression equation is :'+formula)
131. 
132. 
133. # In[10]:
134. 
135. 
136. results = smf.ols(formula, data=data).fit()
137. results.summary()
138. 
139. 
140. #  可以看到整体的拟合优度为100。在0.05的显著性水平下,人口和消费,还有净出口税收都对进出口差额亿美元的变动具有显著性的影响。

数据地址


中国经济数据分析: analysis_of_economic_data

目录
打赏
0
0
0
0
8
分享
相关文章
数据分析案例-汽车客户信息数据可视化分析
数据分析案例-汽车客户信息数据可视化分析
356 0
低空经济新基建!DataV Atlas 如何用大模型玩转空间数据?
阿里云DataV Atlas推出搭载通义千问最新2.5 Max大模型「时空SQL智能小助手」,通过自然语言生成专业SQL,简化空间数据分析流程,助力智慧农田、城市低空交通及应急调度等领域,推动精准决策和智能化管理。零门槛体验空间智能分析革命,开启“会思考的天空网络”新时代。
157 3
低空经济新基建!DataV Atlas 如何用大模型玩转空间数据?
中国报表工具的前世今生
报表不仅限于财务领域,涵盖了各行业的图表展示。传统报表工具如Excel虽能处理简单表格,但面对应用软件中动态、复杂且需与数据库交互的报表时显得力不从心。
首家!阿里云完成数据可视化服务能力评估
阿里云DataV数据可视化团队历经磨炼,走过了10年的可视化之路,在产品和服务上走出了一条属于自己的道路。
【数据可视化】预制菜行业分析(一)——国内发展情况
近年来,预制菜开始从大型连锁餐饮企业的中央厨房渗透到外卖餐饮平台,并逐渐从 B 端走向 C 端。消费者购买后只需要简单加工即可食用,省去了食材采购、处理步骤,具有便捷、高效、口味保持度高的特点。
互联网行业的数据分析,到底在分析什么?
经常有小伙伴问:天天看你们说互联网数据分析,到底互联网数据分析在分析什么?今天给大家分享一下哦。 首先,所有的数据分析,都是围绕三个问题展开的: 监控现状,发现问题 分析原因,评估效果 预测走势,测试方案 但是在不同的场景,解决的问题不一样。 因此想知道互联网数据分析在分析什么,得弄清楚,所谓的“互联网”到底有哪些场景。笼统地说,有7个大场景。
984 1
互联网行业的数据分析,到底在分析什么?
我给中国奥运金牌数做了可视化(二)
彩蛋——canvas如何画出1PX的直线 在这里我举一个例子, 你就明白了, 假设我要画从(50,10) 到 (200,10)这样的一条直线。为了画这条线,浏览器首先到达初始起点(50,10)。这条线宽1px,所以两边各留0.5px。所以基本上初始起点是从(50,9.5)延伸到(50,10.5)。现在浏览器不能在屏幕上显示0.5像素——最小阈值是1像素。浏览器别无选择,只能将起点的边界延伸到屏幕上的实际像素边界。它会在两边再加0.5倍的“垃圾”。所以现在,最初的起点是从(50,9)扩展到(50,11),所以看起来有2px宽。情况如下:
我给中国奥运金牌数做了可视化(二)
我给中国奥运金牌数做了可视化(一)
前言 2020东京奥运会已经开幕很多天了,还记得小时候看奥运会的是在2008年的北京奥运会,主题曲是「北京欢迎你」, 那个时候才上小学吧,几乎有中国队的每场必看,当时也是热血沸腾了, 时间转眼已经到了2021年而我也从小学生变成了一个每天不断敲代码的程序员👩‍💻,看奥运的时间又少,但是又想出分力,既然是程序员,想着能为奥运会搞点什么?第一时间想到了就是给奥运奖牌数🏅做可视化,因为单看表格数据,不能体现出我们中国的牛逼🐂, 废话不多说,直接开写。 数据获得 我们先看下奥运奖牌数的表格,这东西肯定是接口获得的吧,我不可能手写吧,而且每天都是更新的,难道我要每天去改,肯定不是这样的,我当时
我给中国奥运金牌数做了可视化(一)

热门文章

最新文章