数据分析之分布函数

简介: 一. 概念解释PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

一. 概念解释

PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

PMF : 概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。

二. 数学表示

PDF:如果X是连续型随机变量,定义概率密度函数为fX(x),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即

Pr(a≤X≤b)=∫bafX(x)dx

PMF:如果X
离散型随机变量,定义概率质量函数为fX(x)

,PMF其实就是高中所学的离散型随机变量的分布律,即
fX(x)=Pr(X=x)

比如对于掷一枚均匀硬币,如果正面令X=1,如果反面令X=0,那么它的PMF就是

fX(x)={12 if x∈{0,1}0 if x?{0,1}

CDF:不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数,有时简称为分布函数。

对于连续型随机变量,显然有FX(x)=Pr(X≤x)=∫x?∞fX(t)dt
那么CDF就是PDF的积分,PDF就是CDF的导数。

对于离散型随机变量,其CDF是分段函数,比如举例中的掷硬币随机变量,它的CDF为
FX(x)=Pr(X≤x)=?????0 if x<012 if 0≤x<11 if x≥1

三.概念分析

 根据上述,我们能得到一下结论:

 1)PDF是连续变量特有的,PMF是离散随机变量特有的;
 2)PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;
 3)PMF的取值本身代表该值的概率。
四.分布函数的意义

  我们从两点来分析分布函数的意义:
  
  1.为什么需要分布函数?

  对于离散型随机变量,可以直接用分布律来描述其统计规律性,而对于非离散型的随机变量,如连续型随机变量,因为我们无法一一列举出随机变量的所有可能取值,所以它的概率分布不能像随机变量那样进行描述,于是引入PDF,用积分来求随机变量落入某个区间的概率。分布律不能描述连续型随机变量,密度函数不能描述离散随机变量,因此需要找到一个统一方式描述随机变量统计规律,这就有了分布函数。另外,在现实生活中,有时候人们感兴趣的是随机变量落入某个范围内的概率是多少,如掷骰子的数小于3点的获胜,那么考虑随机变量落入某个区间的概率就变得有现实意义了,因此引入分布函数很有必要。

  2. 分布函数的意义

  分布函数F(x)

在点x处的函数值表示X落在区间(?∞,x]内的概率,所以分布函数就是定义域为R

的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。
目录
相关文章
|
7月前
|
存储 弹性计算 安全
阿里云服务器自定义、快速、活动、云市场镜像四种主流方式解析与选择参考
阿里云服务器如何购买?目前主要的购买方式有自定义购买、快速购买、通过活动购买、通过云市场镜像页面购买这四种购买方式。然而,面对阿里云服务器多样化的购买方式和配置选项,许多用户可能会感到迷茫,不知道该如何选择最适合自己的购买途径。本文将详细解析阿里云服务器的四种主流购买方式的适用场景及购买流程,以供大家了解他们之间的区别及选择参考。
304 58
|
自然语言处理 JavaScript Java
《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》学习笔记——HarmonyOS架构介绍
HarmonyOS采用分层架构设计,从下至上分为内核层、系统服务层、框架层和应用层。内核层支持多内核设计与硬件驱动;系统服务层提供核心能力和服务;框架层支持多语言开发;应用层包括系统及第三方应用,支持跨设备调度,确保一致的用户体验。
1124 81
|
10月前
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
635 10
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
|
缓存 监控 Java
Java中的虚拟机参数配置详解
Java中的虚拟机参数配置详解
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习在游戏开发中的创新应用
【8月更文挑战第11天】深度学习技术在游戏开发中的应用为游戏产业带来了前所未有的变革和机遇。通过不断探索和创新应用,我们有理由相信未来的游戏将会更加智能、丰富和引人入胜。
|
数据采集 数据可视化 大数据
R语言在统计分析中的应用与实践
【7月更文挑战第30天】R语言以其强大的统计分析能力和开源自由的特性,在统计分析领域发挥着重要作用。无论是基础的描述性统计、推断性统计,还是复杂的回归分析、时间序列分析和生存分析,R语言都提供了丰富的函数和包来支持。通过学习和掌握R语言,数据分析师和研究者可以更加高效地进行数据分析,获取有价值的信息和结论。未来,随着大数据和云计算等新兴技术的发展,R语言的应用前景将更加广阔。
|
Kubernetes Linux 数据安全/隐私保护
使用kubeadm搭建高可用的K8s集群
使用kubeadm搭建高可用的K8s集群
|
存储 人工智能 数据可视化
元象开源650亿参数高性能大模型,无条件免费商用!魔搭最佳实践来了!
为推动国产大模型开源生态繁荣与产业应用快速发展,元象XVERSE公司宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用,业界尚属首次。
|
XML 网络协议 Android开发
Android 源码添加无线调试 ADB 功能
Android 源码添加无线调试 ADB 功能
915 0
|
云安全 人工智能 监控
阿里云智能抗D原理及实践
DDoS攻防已经从单纯的资源比拼演进成竞技battle。 攻击者为了绕过防御措施,伪装自己(CC攻击)、低频扫射、EDoS… 然而万变不离其宗,透过现象看本质,一定会发现那个伪装者。
662 0