《数据分析实战:基于EXCEL和SPSS系列工具的实践》——1.4 数据分析的流程

简介:

本节书摘来自华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第1章,第1.4节,作者 纪贺元,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.4 数据分析的流程

数据分析一般有数据采集、数据整理、制表、数据分析、数据呈现等多个阶段。当然,不是说每一个数据分析的过程都需要这些阶段,有的企业数据质量非常好,自然就不需要数据采集过程了;也有些数据分析并不怎么需要呈现过程。不过,为了方便读者理解,下面将介绍一个完整的流程。

1.4.1 数据采集

数据采集指为了保证数据分析能够顺利展开而进行的数据采集工作。数据采集工作的难度、跨度非常大,有的采集工作非常简单,仅仅是几个简单的邮件、电话,就能够完成数据的采集工作;有的数据采集工作则非常痛苦,甚至经常会出现采集不到数据的情况。

数据采集的难度一般表现在如下几个方面。

(1)数据根本就不存在

由于企业缺乏数据规划或者现场人员疏漏等原因,在采集数据的过程中,经常发现数据根本就不存在。

(2)数据过粗

如1.1.3节所述,企业经常在数据记录的颗粒度方面出问题,例如根据某企业的规定,项目的成本数据应该按照“天”为单位来记录,但是我们最后发现成本记录的单位是“月”,这中间的差别非常大。
(3)数据质量低下

数据的错误、对不上、缺漏等情况普遍存在,曾经有一个项目合作方对我说,如果严格校对数据质量,我们的数据可以删除70%。试想想,在30%的比较“靠谱”的数据上做分析,得出的结论是否靠谱?

(4)人为原因导致数据采集困难

一些人为原因也会导致数据采集的困难,包括部门之间的隔阂、人际关系等因素。

1.4.2 数据整理

但凡是做过数据分析的人都知道,数据整理是一个痛苦而且复杂的过程,很多数据拿到手之后,并不能马上做处理,而是要经过一个转换过程,请看图1-4所示的一个需要整理的数据案例。

image

从图1-4可以看出,A列的数据都是合并单元格格式,如果要对以上的数据进行透视表分析,需要进行如下的操作。

(1) 取消合并单元格

选中A列,点击EXCEL中的“开始”→“合并后居中”,取消合并单元格之后的数据效果如图1-5所示。

image

(2) 填充空白单元格

按F5键,点击“定位条件”,如图1-6所示。

image

在弹出的界面中选择“空值”,如图1-7所示。

这时工作表中的空白都被选中了,效果如图1-8所示。

image

在公式栏中输入“=A2”,也就是让每一个单元格都等于上一个单元格的值,然后按“Ctrl+Enter”组合键,空白处都填充好了。填充后的效果如图1-9所示。

image

以上只是一个小小的例子,我们在进行数据处理的时候,都要先进行各种数据整理。甚至有时数据整理的时间会占据数据分析时长的70%以上。

1.4.3 制表

制表是日常工作的重要组成部分,也是数据分析的重要组成部分。实际上不少企业已经把企业管理工作贯穿到报表的实现当中,通过一张张精心设计的报表,管理人员可以迅速了解企业的采购、生产、销售、售后、财务、人事、安全等相关信息。

企业常见的报表包括如下类型。

  • 采购报表:反映企业各部门的需求,供应商供货品类、价格等状况,采购项目进展状况等;
  • 生产报表:包括产量表、成本表、人力消耗表、设备故障表、安全质量表等;
  • 财务报表:包括销售输入管理、成本管控表、量本利分析表、流动资产管理表、负债管理表、投资项目决策表、财务预测表等;
  • 售后报表:包括样品跟踪表、设备状况跟踪、客户满意度跟踪、投诉建议表等;
  • 人事报表:包括人员状况、薪资福利、人员雇佣离职表等多个报表。

1.4.4 数据分析

数据分析的范围非常广泛,凡是基于业务需求出发且依托于数据进行分析的,就是数据分析。

企业的数据分析一般包括以下方面。

  • 营销数据分析:这是企业数据分析的主要部分,个人认为也是数据分析最迷人最有魅力的地方。营销数据分析包括营销整体状况分析、客户分析、产品线分析、促销分析、客户画像、客户购买原因分析、营销预测、营销异常值分析等。
  • 生产质量数据分析:包括生产态势分析、设备故障分析、生产成本分析、质量稳定性分析等。
  • 财务数据分析:财务数据分析也是数据分析的主要部分之一,在很多企业,营销数据和财务数据有很多交集,甚至我见过一些企业的营销数据基本上是在财务部进行汇总的。财务数据分析一般比较关心异常值分析、财务预测、成本结构、项目投融资决策等多个方面。企业的其他部门也有一些数据分析的需求,不过分布得比较零散。

1.4.5 数据展示(呈现)

数据展示这件事情的跨度很大,高度重视数据展示的大企业会购买类似Tableau这样的专业可视化软件,这类软件功能强大,能够承受大数据量的考验,且运转速度快;而一般的企业由于实力限制或者没有那么高层次的需求,通常利用EXCEL或者一些数据分析插件来优化图形展示效果即可。

相关文章
|
1月前
|
easyexcel Java 测试技术
读取Excel还用POI?试试这款开源工具EasyExcel
读取Excel还用POI?试试这款开源工具EasyExcel
55 0
|
1月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
104 0
|
1月前
|
数据可视化 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第13天】 本文旨在探讨Python语言在当前数据驱动时代的核心应用之一——数据分析领域的实践方法和技术。Python,作为一种高级编程语言,因其简洁的语法、强大的库支持以及广泛的社区资源,已成为数据科学家和分析师首选的工具之一。文章首先简要介绍Python及其在数据分析中的优势,随后深入讲解使用Python进行数据处理、分析、可视化的关键技术,包括但不限于Pandas库的数据处理、Matplotlib和Seaborn库的数据可视化技术,以及SciPy和Scikit-learn库在数据分析中的应用。通过具体案例,展示Python如何有效地解决实际数据分析问题,最终旨在为读者提供一
21 2
|
1月前
|
数据采集 数据挖掘 大数据
Python在数据分析中的应用及实践
【2月更文挑战第13天】 本文旨在探讨Python语言在数据分析领域的广泛应用及其实践方法。通过深入浅出的方式,介绍Python在处理、分析大数据时的核心库和工具,如Pandas、NumPy、Matplotlib等,并通过一个实际案例来展示这些工具如何协同工作,解决数据分析中遇到的常见问题。文章不仅为读者提供了一个学习和应用Python进行数据分析的起点,也通过案例分析,展示了Python在数据处理能力上的强大与灵活性,旨在激发读者对Python数据分析深入学习和研究的兴趣。
|
6天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
12 1
|
7天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
12 1
|
7天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
13 1
|
7天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
8天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。
|
8天前
|
存储 数据可视化 数据挖掘
实战案例:Pandas在金融数据分析中的应用
【4月更文挑战第16天】本文通过实例展示了Pandas在金融数据分析中的应用。案例中,一家投资机构使用Pandas加载、清洗股票历史价格数据,删除无关列并重命名,将日期设为索引。接着,数据被可视化以观察价格走势,进行基本统计分析了解价格分布,以及计算移动平均线来平滑波动。Pandas的便捷功能在金融数据分析中体现出高效率和实用性。