《数据分析实战:基于EXCEL和SPSS系列工具的实践》一2.1 基本概念和术语

简介: 本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章 ,第2.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.1 基本概念和术语 2.1.1 基本概念 有关统计和数据挖掘的概念很多,以下拣选一些常用的基本概念进行说明。

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章 ,第2.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1 基本概念和术语

2.1.1 基本概念

有关统计和数据挖掘的概念很多,以下拣选一些常用的基本概念进行说明。
1.统计与挖掘
“统计”,对于读者来说可能并不陌生,在“统计”、“挖掘”这两个概念中,可能大家往往会觉得“挖掘”更难理解。统计和挖掘最大的差别在于:统计是事先设想好的一个动作,然后去验证它。例如先假设销售收入和销售投入之间有关系,公司多投钱给推销人员去拜访客户,就能获得更多的用户和订单,销售收入就能上升,然后我们用统计的模型去验证它。
另外的一个例子是:社会大众都认为吸烟是导致肺癌的重要原因,然后大家找来了一些肺癌患者的相关数据,研究表明,同样是吸烟者,有的人得了肺癌,但是很多人却没事,并且一些从来不吸烟的女性也有得肺癌的。这样,大家慢慢开始怀疑肺癌和吸烟之间的正向关系。或者简单地说,对于这个例子,统计分析的结论是固定的:只有两种可能,一是肺癌和吸烟有关系,二是无关!
那么数据挖掘是怎么样的呢?
曾经有炒股票的大户给了我们很多数据,包括股票是否涨停、是否放量、前几天的各种指标,涉及KDJ、RSI、MACD等,客户希望我们帮他确定:具有什么样特征的股票是比较容易涨停的?这个需求怎么实现后面再说,这里想要说明的是,在分析这个数据之前,是没有“假定”的,我们不知道最后做出来的结果是什么样的。这就是数据挖掘,从大量的数据中通过各种方法找出隐藏于其中的信息。
2.平均值
平均值似乎是一个无须讲的东西,但是实际上在数据量大的情况下,平均值反映的是一个数据“应该”是什么。记得之前曾看过一份报告,说上海成年男性的平均身高是170.5厘米,那份报告的样本量是比较大的,实际上就是说上海男性的身高“应该”是170.5厘米。
3.标准差
如果说平均值反映了数据的“中轴线”,那么标准差就反映了数据的波动情况,也就是说数据是波澜不惊还是起伏不定。
“平均值+标准差”仿佛就是一对结义兄弟,焦不离孟、孟不离焦,我们经常用这个组合来衡量数据的变动范围,如图2-1(数据的平均值和标准差分布图)所示。
4.正态分布
说起正态分布,我自己都有点犯难,因为正态分布是理论性比较强的,这本书的初衷是侧重应用而不是理论。不过正态分布实在是重要,它贯穿了统计分析的全过程,几乎无处不在,正态分布如同统计分析中绕不过去的一堵墙,因此还是需要解释一下。

image


理解正态分布,就从这个例子开始:90年代末的时候,移民还比较容易,那时很多人都选择了移民,那么,我们现在来看看当时移民到美国、加拿大的人过得怎么样吧!大致梳理了一下,得到如下结论:
混得好的:很少,应该说是极少数。在当地大企业里面做得不错,没几个;自主创业成功的,好像没有。当然这里说的自主创业是正儿八经的创业,开中国餐馆个人认为不算创业。
混得一般的:大多数,就是在企业里面有一个普通的职位,算不上有钱,但是温饱不愁。
混得差的:也是少数,有一些人回来了,或者在那边就是干司机、导游或体力活,这里丝毫没有瞧不起这些职业的意思,但是对于在国内受过良好高等教育的人来说,算是专业不对口吧。
简单地讲,就是混得好的和混得很差的都很少,大多数都是普普通通。
其实这种规律在工作和生活中大量存在,如果跟踪统计一下大学毕业生的发展情况,大致也是这样;老百姓的体重、身高、血压、血糖等的分布都是如此。这种规律就是我们经常提到的正态分布。
如果把这个规律稍微讲得形象一点,就是“两头小,中间大”,请见图2-2(数据的频率和正态分布图)。
让我们简单地看一下正态分布的规律:
1)两边基本是对称的。


image


2)形状像一个倒扣的“钟”。
3)高峰在中间,越到中间,数据分布的概率越大,越到两边,概率就越小。
这个看上去很简单的正态分布,其实就是统计分析的重要基础,实际上很多统计规律都是建立在数据正态分布的基础上的。或者说,如果数据不是正态分布的,那么很多统计规律则是不成立的。
根据正态分布的规律可以得到,绝大部分(95%)的数据,是分布在居中的位置上的,只有很小概率的事件分布在正态曲线两侧,这个就是假设检验中的单侧和双侧,如图2-3所示。

image


5.峰度和偏度
峰度和偏度算是数据分析中比较专业的概念了,峰度反映的是数据中极值的情况,请看图2-4峰度的数据。

image

在图2-4中,极值是-10的时候,KURT函数结果为21.86,下面观察一下当极值范围在-10和10之间时,KURT函数的取值结果,如图2-5所示。

image


从图2-5可以看出,当极值与原值的取值范围比较接近的时候,峰值会接近于0,而极值与原值的范围差距比较大时,峰度值会变大,但是无论是正极值还是负极值,峰度的最大值都是23左右。
偏度是衡量数据对称性的一个重要指标,EXCEL中对应的函数是SKEW,它用于比较对象正态分布曲线,如图2-6所示,这是一个左偏的数据图。


image


在图2-6中,数据明显左偏,其偏度值为0.346,再来看看图2-7,这是一个右偏的数据图。

image


在图2-7中,数据的偏度为-0.098,此时数据明显右偏。因此根据偏度值判断数据对称性的规则如下:
数据服从正态分布,偏度为0。
数据左偏,偏度>0。
数据右偏,偏度<0。
6.连续和离散
连续变量和离散变量是数据分析中经常碰到的概念,所谓连续变量就是一个区间里可以任意变化的量,例如国民收入在0~100万之间波动时,每一个值都是可以取到的;离散变量就是只能取很少数的几个值,例如性别,就是男和女;大气雾霾的等级是优、良、中、轻度污染、重度污染、爆表。
离散变量内部也有区分,图2-8所示为离散型变量的分类。


image


二元离散量的例子很多,例如医生关心患者是否得病,“得病”和“不得病”就是二元离散的;企业关心客户的购买行为,“买”和“不买”也是二元离散的。
只要离散变量超过两个,就是多元的,在“多元名义离散量”这个概念中,“名义”这两个字其实挺难理解的,它的英文是nominal,意思是有多个变量,但是变量之间并没有明确的排序关系,例如企业品牌之间的关系,宝洁有飘柔、伊卡璐、潘婷、海飞丝等品牌,我们很难说这些品牌之间有明确的排序关系。再例如,在研究城市的经济发展时,北京、上海、南京、武汉、南宁这些城市之间,也很难说有明确的排序关系。
多元有序则不然,现在国内空气质量不好,考虑PM2.5指数,有“严重污染”、“中度污染”、“轻度污染”、“良”、“优”这五个档次,见表2-1。

image


类似于表2-1这种有多个并且之间可以明确排序的变量就是多元有序。
7.因变量和自变量
因变量,一般指的是我们研究和关心的变量,自变量一般就是其发生变化后会引起其他变量变化的变量。
因变量和自变量说起来很容易,但是在实际的数据分析中,学员往往会容易混淆。
我在上课的时候,经常举到一个“销售收入和销售费用”的例子,并且提出了一个判断因变量和自变量比较简单有效的原则,即:时间上靠前的就是自变量,时间上靠后的就是因变量。在实际销售工作中,通常是先有销售费用,然后去推销,然后再有销售收入,因此销售费用是自变量,销售收入是因变量。

相关文章
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
使用Jupyter Notebook进行数据分析:入门与实践
【6月更文挑战第5天】Jupyter Notebook是数据科学家青睐的交互式计算环境,用于创建包含代码、方程、可视化和文本的文档。本文介绍了其基本用法和安装配置,通过一个数据分析案例展示了如何使用Notebook进行数据加载、清洗、预处理、探索、可视化以及建模。Notebook支持多种语言,提供直观的交互体验,便于结果呈现和分享。它是高效数据分析的得力工具,初学者可通过本文案例开始探索。
|
7天前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
2天前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析工具有哪些
【7月更文挑战第3天】Python数据分析工具有哪些
103 58
|
7天前
|
数据挖掘 数据处理
最近在读《谁说菜鸟不会数据分析 SPSS篇》pdf分享
《谁说菜鸟不会数据分析(SPSS篇)》面向职场新人,以轻松方式讲解SPSS在数据分析中的应用,涵盖统计描述、推断和探索性分析,避开复杂术语,适合产品运营、市场、金融等领域从业者提升效率。[PDF下载](https://zhangfeidezhu.com/?p=339)
13 0
最近在读《谁说菜鸟不会数据分析 SPSS篇》pdf分享
|
8天前
|
数据可视化 数据挖掘 知识图谱
精选:15款顶尖Python知识图谱(关系网络)绘制工具,数据分析的强力助手
这里有15款免费工具推荐:NetworkX(Python基础),Graph-tool(C++速度),Graphviz(可视化库),ipycytoscape(Jupyter集成),ipydagred3,ipySigma(NetworkX + Web),Netwulf(交互式),nxviz(Matplotlib绑定),Py3plex(复杂网络分析),Py4cytoscape(Python+Cytoscape),pydot(Graphviz接口),PyGraphistry(GPU加速),python-igraph,pyvis(交互式图形),SNAP(大规模网络分析)。绘制和理解网络图从未如此简单!
19 0
|
19天前
|
数据采集 数据可视化 数据挖掘
数据挖掘实战:使用Python进行数据分析与可视化
在大数据时代,Python因其强大库支持和易学性成为数据挖掘的首选语言。本文通过一个电商销售数据案例,演示如何使用Python进行数据预处理(如处理缺失值)、分析(如销售额时间趋势)和可视化(如商品类别销售条形图),揭示数据背后的模式。安装`pandas`, `numpy`, `matplotlib`, `seaborn`后,可以按照提供的代码步骤,从读取CSV到数据探索,体验Python在数据分析中的威力。这只是数据科学的入门,更多高级技术等待发掘。【6月更文挑战第14天】
53 11
|
14天前
|
Java API Spring
集成EasyPoi(一个基于POI的Excel导入导出工具)到Spring Boot项目中
集成EasyPoi(一个基于POI的Excel导入导出工具)到Spring Boot项目中
61 1
|
19天前
|
数据采集 机器学习/深度学习 数据可视化
数据挖掘实战:Python在金融数据分析中的应用案例
Python在金融数据分析中扮演关键角色,用于预测市场趋势和风险管理。本文通过案例展示了使用Python库(如pandas、numpy、matplotlib等)进行数据获取、清洗、分析和建立预测模型,例如计算苹果公司(AAPL)股票的简单移动平均线,以展示基本流程。此示例为更复杂的金融建模奠定了基础。【6月更文挑战第13天】
96 3
|
23天前
|
JSON 数据挖掘 API
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
数据分析实战丨基于pygal与requests分析GitHub最受欢迎的Python库
22 2
|
2月前
|
数据采集 数据挖掘 API
Ownips+Coze海外社媒数据分析实战指南
本文介绍了在社交媒体数据采集和分析中的实践方法,特别强调了使用IPS代理的重要性。社交媒体如Twitter、Facebook等提供了丰富的数据资源。文章推荐了Ownips,这是一家提供高质量静态ISP代理服务的公司,用户可以选择需要的地区IP,并通过API或账号定向访问配置使用。 文章通过一个Twitter趋势数据采集的案例,展示了如何利用Ownips代理IP和Python的requests库以及BeautifulSoup解析HTML来获取和解析数据。此外,文章还提到了如何在Coze平台上创建数据采集插件和Twitter Bot,以实现自动化和智能化的数据分析。
Ownips+Coze海外社媒数据分析实战指南