《数据分析实战:基于EXCEL和SPSS系列工具的实践》一导读

简介: 在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧。


image

前  言

为什么要写这本书
在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧。
“理想很丰满,现实很骨感”,原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单。从框架目录的确定、章节内容的选择、语言风格的打磨,到分析结果截图的选择等,每一个环节都需要细细地思量和斟酌。这本书的写作使我从2016年4月到11月的这段时间非常疲劳,颈椎病也复发了,因为在写书的同时,我的数据分析方面的培训并没有停止。
我在写作本书的时候,给自己规定了几个原则:
一是要实用,要能够解决企业工作中的实际问题。
二是要尽可能地降低读者上手的难度,那种操作非常繁复、需要强大坚实的统计分析理论基础,或者需要编程才能实现的功能,我都没有放在本书中。原因很简单,即使本书讲了那些难度比较大的内容,读者也很难真正应用起来。
三是语言风格尽可能轻松活泼一点,尽量避免很严肃、很晦涩的专业术语,我很难做到“寓教于乐”,但还是尽己所能让本书的阅读轻松一点吧。
在本书的写作过程中,我经常提醒自己这三条原则,并且要求自己遵守它们。
简言之,给读者带来一本“有用的、上手比较容易的、读起来比较轻松的”数据分析书,这就是我写这本书的原则和动力。
读者对象
这本书的读者对象是企事业单位中从事数据分析的非统计专业人士:
企业中的市场部相关人员,包括市场分析人员、产品设计和研发人员、销售经理等。
企业中的生产部人员,包括生产经理、质量控制经理等。
企业中的财务部人员,包括财务总监、财务经理等。
企业中其他需要经常和各类数据打交道的管理人员和一般工作人员。
如果读者是高校或者科研院所的教师、学生、科研人员,要从事专业学术论文的撰写或者纵向科研项目的研究工作,不建议你将本书作为主要的阅读和学习的书籍,因为使用的工具、模型、方法都会大相径庭,例如撰写学术论文经常要使用Eviews、Stata等专业计量工具,而这些专业计量工具在企业中使用的概率非常低。
如何阅读本书
本书分为三大部分,第一部分基础篇(第1章和第2章)主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。
第二部分制表篇(第3章到第5章)介绍数据的采集、整理以及常用数据报表的制作。
第三部分数据分析篇(第6章到第14章)占据了本书的大部分篇幅,囊括了常用的、有代表性的、实用的功能,包括数据扫描、数据标注、异常值分析、回归等。
正文中所提“案例文件”为本书的配置案例资料,请通过网络自行下载,下载地址为http://www.hzbook.com
勘误和支持
由于作者的水平有限,编写的时间也很仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你发现本书有错误,或者有其他宝贵意见,请发送邮件到我的邮箱jhyjhy8888@163.com,我很期待能够收到你们的真挚反馈。

目 录

1.1  一眼就看到结论还需要数据分析吗
1.2  数据分析能给我们带来什么
1.3.3  合适的工具
1.4  数据分析的流程
1.5  如何成为数据分析高手
第2章
2.1  基本概念和术语
2.1.2  术语
2.2  选择称手的软件工具
2.3  在分析需求和模型之间搭起桥梁
第3章
3.1  数据采集的几条重要原则
3.2  用“逐步推进法”推测需要的数据
3.3  耗时耗力的数据整理过程
3.3.1  重复、空行、空列数据删除
3.3.2  缺失值的填充和分析
3.3.3  数据间逻辑的排查
3.4  数据量太大了怎么办
3.4.1  放到数据库中处理
3.4.2  用专业工具处理
3.4.3  数据抽样
第4章 数据分析的基础:制表(上)
4.1 以数据合并为目标的制表
4.1.1 跨工作表合并
4.1.2 跨工作簿合并
4.2 以数据筛选为目标的制表
4.2.1 普通数据筛选
4.2.2 高级筛选
4.2.3 计算筛选
4.2.4 函数筛选
4.3 以获得概要数据为目标的制表
4.3.1 分类汇总方法
4.3.2 数据透视表汇总
第5章 数据分析的基础:制表(下)
5.1 “七个百分比”让你懂得大部分表格类型
5.1.1 行总计的百分比
5.1.2 列总计的百分比
5.1.3 全部总计的百分比
5.1.4 父行(列)的百分比
5.1.5 累计占比
5.1.6 环比
5.1.7 同比
5.2 分组功能经常让分析峰回路转
5.2.1 文本的分组
5.2.2 等步长的数据分组
5.2.3 不等步长的数据分组
5.2.4 日期型的分组
5.3 随意生成各种派生指标
5.3.1 添加字段
5.3.2 添加项
5.4 从大数据库中挑选要分析的数据:Microsoft Query
5.5 强大的SQL
5.5.1 SQL的基本语法
5.5.2 SQL的应用
第6章 数据扫描:给数据做体检
6.1 在EXCEL中给数据做扫描
6.2 SPSS中给数据做扫描
6.3 在Modeler中给数据做扫描
6.4 其他相应的指标
第7章 数据标注:给数据上色
7.1 大数据块的整体标注
7.1.1 突出显示单元格规则
7.1.2 特殊数据选取规则
7.2 根据业务逻辑在数据中标注上色
7.2.1 数据条、色阶、图标集的应用
7.2.2 规则的理解
7.2.3 根据业务需求改变规则
7.3 采用公式实现复杂强大的数据标注
7.3.1 理解逻辑表达式的含义
7.3.2 复杂逻辑公式的应用
7.4 如何在一张表格中实现多种标注规则
7.4.1 多规则的应用
7.4.2 如何理解“遇真则停止”
第8章 找到数据中的“特殊分子”
8.1 什么是异常值
8.2 异常值的判断标准
8.3 用绘图技巧找到异常值
8.3.1 散点图
8.3.2 面板图
8.4 用公式函数法发掘异常值
8.5 三倍标准差法
第9章 相关分析与决策树
9.1 Pearson相关
9.1.1 应用场景
9.1.2 输出指标的解析
9.2 典型相关分析
9.2.1 操作步骤
9.2.2 结果解读
9.3 决策树
9.3.1 什么时候需要用决策树
9.3.2 决策树的操作和指标解释
第10章 聚类
10.1 多维度数据的分类怎么办
10.1.1 低维度数据的分类方法
10.1.2 高维度数据的分类需求
10.1.3 常用的聚类操作介绍
10.2 聚类的烦恼1:如何面对数量级差别大的数据
10.3 聚类的烦恼2:如何判断聚类的质量
第11章 回归
11.1 如何寻找现有数据的内在规律
11.1.1 什么是数据拟合
11.1.2 多元线性回归
11.2 logistic回归
11.2.1 回归(客户“买”与“不买”)
11.2.2 多元logistic回归(多个品牌的选择)
11.2.3 多元有序logistic回归
第12章 关联分析
12.1 因果关系的弱化
12.2 关联分析的指标
12.2.1 支持度
12.2.2 置信度
12.2.3 提升度
12.3 什么样的数据适合做关联分析
12.3.1 商超数据
12.3.2 金融数据
12.3.3 生产质量数据
12.4 关联分析的具体操作
第13章 预测
13.1 什么是预测,预测的准确度高吗
13.2 移动平滑
13.3 指数平滑
13.3.1 二次指数平滑
13.3.2 三次指数平滑
13.4 对周期性数据的分解
13.5 ARIMA预测法
第14章 高级绘图技巧
14.1 怎样才算图画得好
14.2 双轴图的技巧和运用
14.3 不同数量级数据的高效对比展示
14.4 数据标签的妙用
14.5 图形中的重点标注
14.6 绘图美学—多点审美素养
14.6.1 整体布局
14.6.2 线型的选择
14.6.3 色彩对比
后记 数据分析经验之我见

相关文章
|
3月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
135 5
|
2月前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
214 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
4月前
|
人工智能 Python
读取excel工具:openpyxl | AI应用开发
`openpyxl` 是一个 Python 库,专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它是处理 Excel 文件的强大工具,可以让你在不需要安装 Excel 软件的情况下,对 Excel 文件进行创建、修改、读取和写入操作【10月更文挑战第3天】
125 0
|
4月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
290 0
|
2月前
|
人工智能 自然语言处理 JavaScript
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。
176 8
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
|
3月前
|
数据挖掘 关系型数据库 Serverless
利用数据分析工具评估特定业务场景下扩缩容操作对性能的影响
通过以上数据分析工具的运用,可以深入挖掘数据背后的信息,准确评估特定业务场景下扩缩容操作对 PolarDB Serverless 性能的影响。同时,这些分析结果还可以为后续的优化和决策提供有力的支持,确保业务系统在不断变化的环境中保持良好的性能表现。
98 48
|
2月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
2月前
|
监控 数据可视化 数据挖掘
数据看板制作工具评测:这6款工具能如何提升企业的数据分析效率?
本文介绍了6款数据看板制作工具,包括板栗看板、Tableau、Power BI、Qlik Sense、Google Data Studio和Looker,从功能、适用场景等方面进行了详细对比,旨在帮助企业选择最合适的工具以实现高效的数据可视化和管理决策。
|
3月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
3月前
|
数据可视化 数据挖掘 项目管理
打破协作壁垒,Excel多人协同编辑工具带来翻天覆地的变化!
在现代办公中,团队协作和信息共享至关重要。Excel的多人协同编辑功能显著提升了工作效率,避免了版本冲突和重复劳动。市场上的Google Sheets、Airtable、板栗看板和Zoho Sheet等工具也提供了类似功能。以其清晰的界面和强大的数据分析能力,特别适合项目管理和进度追踪,帮助团队高效协作,达成目标。