如何利用Excel中进行高级数据分析

简介:

网站分析中专业的工具除了 Google Analytics、 Adobe Sitecatalyst、Webtrends、腾讯分析和百度统计等外,我想最常用的数据处理工具就是Excel了,Excel里头最基础的就是运算和图表的制作,稍微高级一点就是函数和数据透视表的使用了,当然你可能还会想到 VBA 和宏,但估计很少高手会使用这些高级的功能。

那对于高级的数据分析而言,也就是涉及统计学的专业分析方法和原理的时候,是不是就一定得求助于 SPSS、SAS 这类专业的分析工具呢?

数据分析从低级到高级层次的跳跃过程中有没有可以起承接作用的工具呢?其实是有的,这就是 Excel 的数据分析功能。

貌似最近比较火的两本 Excel 书籍《谁说菜鸟不会数据分析》和《让Excel飞》都没有涉及这部分的内容。高级的数据分析会涉及回归分析、方差分析和T检验等方法,不要看这些内容貌似跟日常工作毫无关系,其实往高处走,MBA的课程也是包含这些内容的,所以早学晚学都得学,干脆就提前了解吧,请查看以下内容。

在使用之前,首先得安装 Excel 的数据分析功能,默认情况下,Excel 是没有安装这个扩展功能的,安装如下所示:

1)鼠标悬浮在 Office 按钮上,然后点击【Excel 选项】

79b3d199a74b2881f536377cb4752e05203ae6b6

2)找到【加载项】,在管理板块选择【Excel 加载项】,然后点击【转到】:

634b48de6240936f4862157ea71cbb928d487da5

3)选择【分析工具库】,点击【确定】:

1254ab4dcbc00053ac1ed15984fc11321a858d29

4)安装完后,就可以【数据】板块看到【数据分析】功能,如下所示:

d8f15a685e08c20f057ddbbad102d1297345a5b8

安装完后,首先来了解一下回归分析的内容。

一、回归分析

在详细进行回归分析之前,首先要理解什么叫回归?实际上,回归这种现象最早由英国生物统计学家高尔顿在研究父母亲和子女的遗传特性时所发现的 一种有趣的现象:身高这种遗传特性表现出”高个子父母,其后代身高也高于平均身高;但不见得比其父母更高,到一定程度后会往平均身高方向发生’回归’”。 这种效应被称为”趋中回归”。现在的回归分析则多半指源于高尔顿工作的那样一整套建立变量间的数量关系模型的方法和程序。 这里的自变量是父母的身高,因变量是子女的身高。

百度百科对于回归分析的定义是: 回归分析(regression analysis) 是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛:

1)回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;

2)按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

a50b4fca69512e4a89d0e8f6a25bf978a13fb24f

这里举个电商的例子:电子商务的转换率是一定的,网站访问数一般正比对应于销售收入,现在要建立不同访问数情况下对应销售的标准曲线,用来预测搞活动时的销售收入,如下所示:

0fc18097381f32e30c4a41d90beef0268bbaa577

1. 首先,利用散点图描绘图形:

e3992494efb283880e889abe93240dc33515e5ca

2. 添加趋势线,并且显示回归分析的公式和 R 平方值:

aaf4b51b2f797f38711f01dd15afd851a6797b2e

从图得知,R平方值=0.9995,趋势线趋同于一条直线,公式是:y=0.01028x-27.424
R 平方值是介于 0 和 1 之间的数字,当趋势线的 R 平方值为 1 或者接近 1 时,趋势线最可靠。因为 R2 >0.99,所以这是一个线性特征非常明显的数值,说明拟合直线能够以大于 99.99% 地解释、涵盖了实际数据,具有很好的一般性, 能够起到很好的预测作用。

3. 使用Excel的数据分析功能

1)点击【数据分析】,在弹出的选择框中选择【回归】,然后点击【确定】

adfb239b402d963d2ecb50cd27c285fb78ea52c4

2)【X值输入区域】选择访问数的单元格,【Y值输入区域】选择销售额的单元格,同时勾选如下所示的选项,包括残差、标准残差、残差图、线性拟合图和正态概率图。

dc87938b03485b28a2573f245e68f102f80ac199

3)以下内容是残差和标准残差:

187f9ccaef0853d5c93813f3ebc1f08611333421

4)以下是残差图:

414ef461705791dcb4d6912b4b5814c7d2316eb0

残差图是有关于实际值与预测值之间差距的图表,如果残差图中的散点在中轴上下两侧分布,那么拟合直线就是合理的,说明预测有时多些,有时少些,总体来说是符合趋势的,但如果都在上侧或者下侧就不行了,这样有倾向性,需要重新处理。

5)以下是线性拟合图

4c0c506e8db448c16d16060814445f2b6af38a5d

在线性拟合图中可以看到,除了实际的数据点,还有经过拟和处理的预测数据点,这些参数在以上的表格中也有显示。

6)以下是正态概率图

8d7b86465ad21b90637180c9243c0ab9f417af27

正态概率图一般用于检查一组数据是否服从正态分布,是实际数值和正态分布数据之间的函数关系散点图,如果这组数值服从正态分布,正态概率图将是一条直线。回归分析不一定得符合正态分布,这里只是仅仅把它描绘出来而已。

以上数据表格和图表都说明公式y=0.01028x-27.424是一个值得信赖的预测曲线,假设搞活动时流量有50万访问数的话,那么预测销售将是51373,如下图所示:

033c16ed4d4494d97e53b0a894e721b8288cc72c


原文发布时间为:2018-10-21

本文来自云栖社区合作伙伴“数据与算法之美”,了解相关信息可以关注“数据与算法之美”。

相关文章
|
7月前
|
数据挖掘 数据安全/隐私保护 Python
【Python数据分析】<数据分析工具>基于Excel的数据分析
【1月更文挑战第22天】【Python数据分析】<数据分析工具>基于Excel的数据分析
|
5月前
|
机器学习/深度学习 并行计算 数据挖掘
🎓PyTorch深度学习入门课:编程小白也能玩转的高级数据分析术
【7月更文挑战第29天】踏入深度学习世界,新手也能用PyTorch解锁高级数据分析。
47 2
|
5月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
|
5月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
|
5月前
|
数据采集 数据挖掘 数据处理
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
【7月更文挑战第14天】Python的Pandas和NumPy库是数据分析的核心工具。Pandas以其高效的数据处理能力,如分组操作和自定义函数应用,简化了数据清洗和转换。NumPy则以其多维数组和广播机制实现快速数值计算。两者协同工作,如在DataFrame与NumPy数组间转换进行预处理,提升了数据分析的效率和精度。掌握这两者的高级功能是提升数据科学技能的关键。**
59 0
|
5月前
|
数据挖掘 数据处理 决策智能
Python 数据分析工具箱:深挖 Pandas 与 NumPy 高级功能,驱动智能决策
【7月更文挑战第12天】Python的Pandas和NumPy是数据分析的基石。Pandas提供灵活的数据结构如DataFrame,用于高效处理关系型数据,而NumPy则以多维数组和科学计算功能著称。两者结合,支持数据合并(如`pd.merge`)、时间序列分析(`pd.to_datetime`)和高级数组运算。通过掌握它们的高级特性,能提升数据分析效率,应用于各领域,如金融风险评估、市场分析和医疗预测,助力数据驱动的决策。学习和熟练运用Pandas与NumPy是成为出色数据分析师的关键。
64 0
|
5月前
|
数据可视化 数据挖掘 数据处理
Python对Excel两列数据进行运算【从基础到高级的全面指南】
【7月更文挑战第6天】使用Python的`pandas`库处理Excel数据,涉及安装`pandas`和`openpyxl`,读取数据如`df = pd.read_excel('data.xlsx')`,进行运算如`df['Sum'] = df['Column1'] + df['Column2']`,并将结果写回Excel。`pandas`还支持数据筛选、分组、可视化、异常处理和性能优化。通过熟练运用这些功能,可以高效分析Excel表格。
333 0
|
6月前
|
人工智能 自然语言处理 安全
ChatGPT高效搞定Excel数据分析
ChatGPT高效搞定Excel数据分析
139 0
|
7月前
|
数据采集 数据挖掘 数据处理
Python数据分析实战:使用Pandas处理Excel文件
Python数据分析实战:使用Pandas处理Excel文件
257 0
|
7月前
|
分布式计算 数据挖掘 Hadoop
《区块链公链数据分析简易速速上手小册》第5章:高级数据分析技术(2024 最新版)(下)
《区块链公链数据分析简易速速上手小册》第5章:高级数据分析技术(2024 最新版)(下)
79 1