描述性统计分析 | 学习笔记

简介: 快速学习 描述性统计分析

开发者学堂课程【深入理解数据分析描述性统计分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/561/detail/7684


描述性统计分析


一、随机事件与概率之概率分布

二、一维和多维随机变量与分布函数的定义和性质

三、正态分布

四、二项分布

五、二项分布之独立重复实验概率的求法

六、二项分布之二项分布的数学期望和方差

七、泊松分布

八、统计指标按照其反映的内容或其数值表现形式

九、基本定量之统计指标按其所反映总体现象的数量特性的性质

十、基本定量之统计指标按管理功能作用

十一、数据分布的描述

十二、数据分布的描述之统计表的分布

十三、数据分布的描述之统计图分类


一、随机事件与概率之概率分布

1.随机事件

在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母 ABC 等表示。

事件关系:事件包含、和事件、积事件、差事件、互斥事件、对立事件。

运算:交换律、分配律、结合律、摩根律。

2.概率的统计定义

在随机试验中,若事件 A 出现的频率,随着试验次数 n 的增加,稳定于某一常数,则称 p 为事件 A 的概率,记作P(A)=p

概率的统计定义仅仅指出了事件的概率是客观存在的,但并不能用这个定义计算概率 P(A)。实际上,人们是采取一次大量实验或一系列频率的平均值作为 P(A)的近似值的。

3.随机变量及其分布

1)一维和多维随机变量与分布函数的定义和性质

2)一维随机变量的常见分布和分布的特征

3)随机变量的函数的分布、数学期望、方差具体含义、定义和性质

4)条件分布,随机变量的独立性


二、一维和多维随机变量与分布函数的定义和性质

随机变量是概率统计中重要的基本概念。随机事件可以通过随

机变量 X 表示,随机事件的概率一般形如 P ( a,P ( a,...,其中- oo。

如果一个变量依试验结果的改变而取不同的实数值,那么称这个变量为(一维)随机变量。

随机变量分布的含义是“随机变量取值的统计规律”。常用的形式有概率分布表,概率密度函数与分布函数。

随机变量数字特征的含义是“用某些实数来反映随机变量分布

的主要特征”。常用的形式有(数学)期望与方差。


三、正态分布

1.正态分布的定义(概率密度的公式)

2.分位点的定义:P{X>X0}=a0

3.正态分布的数学期望和方差


四、二项分布

1.二项分布的数学期望和方差

2.离散随机变量分布的定义(概率密度公式)

3.独立重复试验概率的求法


五、二项分布之独立重复实验概率的求法

一般地讲,独立重复试验应符合三个条件∶

1)任两次试验之间是相互独立的;

2)每一次试验都有两个事件,且这两个事件是相互对立的;

3)每次试验中的每个事件发生的概率是相同的。


六、二项分布之二项分布的数学期望和方差

数学期望:E(X)=np

方差:D(X)=np1-p


七、泊松分布

1.泊松分布概率的求法

2.泊松分布的定义:

image.png

3.泊松分布的数学期望和方差概念和性质及其应用


八、统计指标按照其反映的内容或其数值表现形式

1.总量指标

1)总量指标的概念

总量指标反映统计对象总体规模或水平的综合指标,其表现形式为绝对数。

2)总量指标的作用:

a)对现象总体认识的起点;

b)进行社会管理的基本依据之一;c)计算相对指标和平均指标的基础。

2.相对指标

1 )相对指标的概念

相对指标也称相对数,它是用两个有联系的指标进行对比的比值来反映现象数量特征和数量关系的综合指标。其表现为相对数。

2)相对指标的作用∶

a)反映现象之间的数量联系程度和差异程度。

b)有利于对所研究事物进行比较和分析。

3.平均指标

1)平均指标的概念与作用

平均指标又称平均数,它表明同类现象数量标志的一般水平。

a)便于比较分析。

b )用来综合测定工作质量和工作效率。

c)是制订各项定额的依据之一。


九、基本定量之统计指标按其所反映总体现象的数量特性的性质

1.数量指标

数量指标是反映社会经济现象总规模水平和工作总量的统计指标,一般用绝对数表示。

如职工人数、工业总产值、工资总额等。其数值大小一般随总体范围的大小而增减。质量指标是反映社会经济现象相对水平或平均水平的统计指标,用平均数或相对数表示。

2.质量指标

质量指标是指在计划和统计工作中,反映生产效果或工作质量的各种指标,如劳动生产率、单位面积产量、单位产品成本、设备利用率等。

质量指标的计算和分析对挖掘各部门、各单位工作中的内部潜力具有重要作用。质量指标是总量指标派生指标,用相对数或平均数表示,以反应现象之间的内在联系和对比关系。


十、基本定量之统计指标按管理功能作用

1.描述指标

2.评价指标

3.预警指标


十一、数据分布的描述

统计表形式繁简不一,通常是按项目的多少,分为单式统计表与复式统计表两种。只对某一个项目数据进行统计的表格,称为单式统计表,也称之为简单统计表。统计项目在2个或2个以上的统计表格,称之为复式统计表。


十二、数据分布的描述之统计表的分布

1.按分组情况不同

2.按统计表的分组情况分类

3.按作用不同

4.按统计表的作用分类

5.按统计表所显示的数列性质分类


十三、数据分布的描述之统计图分类

1.条图

2.百分条图和圆圈

3.线图

4.半对数线图

5.统计地图

6.散点图

7.直方图

相关文章
|
6月前
|
机器学习/深度学习 算法 数据挖掘
统计学与Python:实现描述性统计和推断性统计分析
【4月更文挑战第12天】本文介绍了Python在统计学中的应用,重点讲解了如何使用Python进行描述性与推断性统计分析。Pandas和NumPy库用于描述性统计,提供数据概括和总结功能;Scipy和Statsmodels库支持推断性统计,包括假设检验和模型建立。通过数据导入、描述性统计量计算、图表绘制以及假设检验和回归分析等步骤,展示了Python实现统计分析的基本流程。持续学习和实践将有助于提升Python统计分析能力。
407 0
|
3月前
|
数据挖掘 数据处理
R语言统计基本概念:探索描述性统计与推断统计的奥秘
【8月更文挑战第30天】描述性统计与推断统计是R语言统计分析中的两大基石。描述性统计帮助我们直观地了解数据的分布特征和基本属性,而推断统计则允许我们基于样本数据对总体进行推断和预测。在数据分析的实际应用中,两者相辅相成,共同构成了数据分析的完整框架。掌握这两大概念及其在R语言中的实现方法,对于提升数据分析能力和决策效率具有重要意义。
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用R语言进行统计分析的深入探索
【5月更文挑战第22天】R语言是数据分析首选工具,以其强大的统计计算和图形绘制功能受青睐。本文介绍了R在描述性统计、假设检验、回归分析、聚类分析和时间序列分析中的应用。通过线性回归案例展示了R如何进行数据分析,强调了其在数据科学中的重要地位。随着数据科学的发展,R语言将继续发挥关键作用。
|
4月前
|
数据采集 数据可视化 大数据
R语言在统计分析中的应用与实践
【7月更文挑战第30天】R语言以其强大的统计分析能力和开源自由的特性,在统计分析领域发挥着重要作用。无论是基础的描述性统计、推断性统计,还是复杂的回归分析、时间序列分析和生存分析,R语言都提供了丰富的函数和包来支持。通过学习和掌握R语言,数据分析师和研究者可以更加高效地进行数据分析,获取有价值的信息和结论。未来,随着大数据和云计算等新兴技术的发展,R语言的应用前景将更加广阔。
|
6月前
|
前端开发 数据挖掘
使用R语言进行非参数统计分析
【4月更文挑战第27天】R语言非参数统计分析,适用于数据分布未知或不满足正态分布的情况。常用方法包括秩和检验、符号秩检验、Spearman秩相关及Kruskal-Wallis H检验,可通过`wilcox.test`、`signrank.test`、`cor.test`和`kruskal.test`等函数实现。在社会、生物、经济等领域广泛应用,结果解释与验证可借助`summary`、`plot`、自助法和置换测试。通过实例展示了如何使用R进行非参数分析,以比较不同治疗方法的效果。R为非参数统计提供强大工具,助力复杂现象理解和预测。
104 0
|
6月前
|
算法 数据挖掘
R语言在统计分析中的应用
【4月更文挑战第25天】本文探讨了R语言在统计分析的广泛应用,包括描述性统计(如`mean()`, `median()`, `sd()`函数)、推断性统计(如`t.test()`, `aov()`)、回归分析(`lm()`, `glm()`)、时间序列分析(`ts()`, `auto.arima()`)、贝叶斯统计与模拟、多元统计(主成分分析、因子分析、聚类和判别分析)。R的开源性质和丰富的包生态系统使其成为统计工作的理想工具,助力用户保持对最新统计方法的了解。
75 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
87 0
|
6月前
|
数据可视化 数据挖掘
SPSS描述性统计分析
SPSS描述性统计分析
122 0
|
数据挖掘
数据分析|R-描述性统计
数据分析|R-描述性统计
127 0
|
机器学习/深度学习 数据采集 人工智能
如何成为一名数据分析师(二)——统计学之描述性统计
本系列文章针对:从未接触过数据分析的小白,准备毕业后做数据分析的大学生,或者接触过数据分析却没有经验的你。本文会继续为你介绍数据分析的理论基础,主要围绕统计学之描述性统计相关内容。