《数据分析实战:基于EXCEL和SPSS系列工具的实践》一2.3 在分析需求和模型之间搭起桥梁

简介: 本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章 ,第2.3节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 在分析需求和模型之间搭起桥梁 我们在现实工作中面临的都是实际的需求,这些需求往往乍一看跟数据分析并没有多少关系,例如: 成本上升了,对价格如何影响? 如何降低物流成本? 工厂里面做实验,有的时候成功有的时候失败,原因何在? 来我这里购买的客户有哪些特征? 看到这里,读者可能大致明白了,所谓的数据分析,一开始就没几个人考虑数据,而是首先考虑业务,然后再往数据的地方靠。

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章 ,第2.3节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 在分析需求和模型之间搭起桥梁

我们在现实工作中面临的都是实际的需求,这些需求往往乍一看跟数据分析并没有多少关系,例如:
成本上升了,对价格如何影响?
如何降低物流成本?
工厂里面做实验,有的时候成功有的时候失败,原因何在?
来我这里购买的客户有哪些特征?
看到这里,读者可能大致明白了,所谓的数据分析,一开始就没几个人考虑数据,而是首先考虑业务,然后再往数据的地方靠。

2.3.1 识别需求

首先考虑识别需求,还是看一个例子吧,一个北方的加油站企业,经常搞各种活动,大家都知道,加油站如果不搞活动,生意会不大好。问题是加油站经常搞多种活动,于是某一天,企业的领导发话了:我们搞了这么多活动,效果怎么样啊?
好了,这就是需求!非常实在的需求!

2.3.2 分解需求

下一步要分解需求,我们要去做以下的事情:
1)收集没有活动时,各加油站的加油数据。
2)收集有各种活动时,各加油站的加油数据。
需求分解完了,数据也收集完了,就形成了图2-19加油站的加油量数据。

image

2.3.3 选择工具和模型

对于统计的初学者来说,选择工具和模型几乎是最难的,统计软件有很多,统计模型就更加多了,各种模型之间的区分,绝对是一言难尽的事情。需要长期基于统计工具的学习和积累,才能够比较自如地选择模型。
另外,从笔者长期运用工具的经验来看,很多人选择统计模型有其“习惯”和“偏好”,有的人习惯使用相关分析模型,有的人则喜欢决策树模型,不一而足。

相关文章
|
13天前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(上)
大模型与数据分析:探索Text-to-SQL(上)
44 0
|
13天前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(中)
大模型与数据分析:探索Text-to-SQL(中)
41 0
|
13天前
|
SQL 存储 数据挖掘
大模型与数据分析:探索Text-to-SQL(下)
大模型与数据分析:探索Text-to-SQL(下)
37 3
|
1月前
|
easyexcel Java 测试技术
读取Excel还用POI?试试这款开源工具EasyExcel
读取Excel还用POI?试试这款开源工具EasyExcel
57 0
|
6天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
12 1
|
7天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
12 1
|
7天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
13 1
|
7天前
|
算法 数据挖掘 数据建模
用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析
用COPULA模型进行蒙特卡洛(MONTE CARLO)模拟和拟合股票收益数据分析
30 0
|
8天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
8天前
|
存储 数据挖掘
Excel 实例:单因素方差分析ANOVA统计分析
Excel 实例:单因素方差分析ANOVA统计分析
15 0