数据统计分析 — 统计学的几个概念

简介: 数据统计分析 — 统计学的几个概念

几个概念

  • 变量: 分类变量 (有序 无序) 数值型变量 (连续 离)概率:度量随机事件发生的可能性的大小
  • 小概率事件: 统计学当中认为,发生的概率小于等于0.05,我们就认为它是一个小概率事件随机变量: 随机事件的数量化 离散型随机变量 连续型随机变量总体:基研究目的的所有数据的集合
  • 样本: 从总体中随机抽取一部分个体的集合
  • 随机抽样:每个个体被抽到的概率是相等的
  • 总体参数:刻画总体特征的指标称为总体参数
  • 统计量:刻画样本特征的指标称为统计量
  • 概率分布:二项分布 泊松分布
  • 抽样分布: 正态分布t分布 卡方分布
  • 参数估计: 点估计 区间估计

变量

分类变量

  • 无序分类变量
    说明事物类别的一个名称,如:性别有男女两种,二者无大小之分,无顺序之分,还有如血型、民族等
  • 有序分类变量
    也是说明事物类型的一个名称,但是有次序之分,例如: 满意度分为满意 一般 不满意,三者是有顺序的,但是无大小之分

数值型变量

  • 连续型变量
    取值范围是一个区间,它可以在该区间中连续取值,即连续型变量可以取到区间中的任意值,并且有度量单位。例如: 身高、年龄、体重、金额
  • 离散型变量
    取值范围是有限个值或者一个数列构成的,表示分类情况,如: 企业数量 产品数量等

总结:

无序分类变量: 无大小之分,无顺序之分,仅知道属于哪个类别

有序分类变量: 无大小之分,但是有顺序之分,各个类别客户划分等级

连续型变量: 有大小之分,一定区间范围内取值个数无法确定

离散变量:有小大之分,一定区间范围内取值个数是有限的,可数的。

概率

随机事件:随机现象某种可能的观察结果称为随机事件

概率:刻画随机事件眼生可能性大小,取值介于 0~1 之间,是经过大量的重复的独立的实验而得出的结论。

小概率事件

在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,这就是小概率原理,小概率原理是推断统计的基础

随机变量

随机事件的数量化

比如:抛硬币,出现正面,我们就定义为“成功”,记为1,出现反面定义为“失败”,记为0,那{0,1}就是本次实验结果的量化值,为随机变量

离散型随机变量: 随机变量X可以一一列举出来,在一定区间范围内X是有限个,可数的,例如抛硬币,X可取1或0

连续型随机变量: 随机变量X无法一一列举,在一定敬意范围内是无限个,例如:统计北京市30岁以上男性身高,每个人的身高都不一样,测量单位一定的情况下,数据是连接的。

总体和样本

总体:根据研究目的确定所有个体某指标观察值(测量值)的集合【所有数据】

样本:在一个较大范围的研究对象中随机抽出一部分个体进行观察或预测,这些个体的测量值构成的集合称为样本【抽取部分】

大多数统计研究只能接触到样本,例如:灯泡检验是否合格,只能通过样本

例:

任务,检验某批生产的所有灯泡是否达到合格率,某批生产的所有灯泡就是总体

随机从中抽取 5% 的进行检验,随机抽取的 5% 的灯泡就是样本。

随机抽样

在抽样研究中,随机抽取一部分个体进行观察和测量的过程 称为随机抽样

随机抽样的本质:每个个体最终是否入选在抽样进行前是不可知的,但是某入选的可能性是确切可知的(每个个体被抽到的概率是相等的)

注:随机 != 随便

暗箱中有5个球,3个黄的、2个白的,1个红的。随机抽取其中一个

街头随机采访5个人,回答单身的原因,这种不是随机的,因为总体没有确定,把人集中起来,编上号,然后随便抽编号,再找到对应的人进行采访

总体参数和统计量

总体参数:刻画总体特征的指标称为总体参数,例如:总体均值(μ),总体标准差(σ),总体比例 (π)

统计量,刻画样本特征的指标称为统计量,例如:样本均值(x-bar),样本标准差(s),样本比例(p)

但是往往总体参数都是不可知的,我们经常会通过样本统计量去估算总体参数。

抽样误差

许多总体指标是未知的,需要用相应的样本统计量对其进行估计。由随机抽样造成的样本统计量与总体指标之间的差异称为抽样误差(sampling error)

虽然在一次抽样研究中的抽样误差大小是随机的,但是抽样误差在概率意义下有规律可循,这种规律称为抽样分布,后面会详细讲到。

概率分布

随机变量的概率存在一定的规律,这个规律叫做概率分布,但是离散型随机变量和连续型随机变量的规律并不相同,离散型随机变量的概率分布有:二项分布、泊松分布;连续型随机变量的概率分布:正态分布。

https://zhuanlan.zhihu.com/p/123314439

目录
打赏
0
0
0
0
54
分享
相关文章
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
110 0
九大数据分析方法-综合型分析方法以及如何使用这九大分析方法
九大数据分析方法-综合型分析方法以及如何使用这九大分析方法
数学建模统计分析-典型相关分析
统计分析-典型相关分析
115 0
《数据挖掘:实用案例分析》——2.4 时序模式
本节书摘来自华章计算机《数据挖掘:实用案例分析》一书中的第2章,第2.4节,作者 张良均 陈俊德 刘名军 陈荣,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1790 0
文末送书|数据分析必知必会之维度&指标
在业务场景中,维度和指标是基础,清晰准确地定义维度和指标能帮助我们更好地探寻数字背后的含义。下图列举了一些电商常用的指标和维度,你能正确区分吗?
464 0
文末送书|数据分析必知必会之维度&指标
《大数据分析原理与实践》——3.2 关联规则分析
本节书摘来自华章计算机《大数据分析原理与实践》一书中的第3章,第3.2节,作者 王宏志,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1929 0
《大数据分析原理与实践》——2.3 推断统计
本节书摘来自华章计算机《大数据分析原理与实践》一书中的第2章,第2.3节,作者 王宏志,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1650 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等