概率分布深度解析:PMF、PDF和CDF的技术指南

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。

本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。

在深入探讨PMF、PDF和CDF之前,有必要先简要介绍两种常用的概率分布:正态分布和均匀分布。

正态分布: 也称为高斯分布或钟形曲线,正态分布以其均值为中心对称。它广泛应用于描述自然界中的许多现象。诸如人口身高、标准化考试成绩、测量误差等多种实际数据集都呈现正态分布特征。

均匀分布: 在均匀分布中,给定范围内的每个结果具有相等的概率。这是最基本的概率分布形式,常用于描述每个结果等可能出现的情况,如公平骰子的投掷结果或0到1之间随机数的选取。

图1左侧展示了正态分布,呈现典型的钟形曲线,以平均值(此处为0)为中心。可以观察到,大多数数值集中在中心区域。右侧图表表示均匀分布,在0到1之间呈现均匀分布,表明每个值具有相等的出现概率。

在数据科学和统计学研究中,理解概率分布方式是核心任务。概率分布函数在这方面发挥着关键作用。本文将详细讨论概率密度函数(PDF)概率质量函数(PMF)累积分布函数(CDF)的概念。我们还将探讨如何从PMF或PDF推导CDF,并为每种情况提供具体示例。

概率质量函数(PMF)

概率质量函数(PMF)专用于描述离散随机变量。它定义了离散随机变量取特定值的概率。PMF为表示不同离散结果的概率提供了一种方法。

例如,在硬币翻转实验中,可能的结果只有正面和反面两种。公平硬币翻转的PMF可以表示为:

P(正面) = 0.5P(反面) = 0.5

另一个典型示例是投掷六面骰子。PMF表明每个结果(1,2,3,4,5,6)的概率均为0.167(约等于1/6)。

概率密度函数(PDF)

概率密度函数(PDF)用于描述连续随机变量。与为离散值分配概率的PMF不同,PDF描述了随机变量落在特定范围内的可能性。在连续分布中,任一具体点的概率为零,但我们可以通过对PDF在某个区间上进行积分来计算变量落在该区间内的概率。

正态分布(也称为高斯分布)是最常用的连续概率分布之一。其PDF可以表示为:

PDF给出了连续随机变量不同值的相对可能性。

下图直观地展示了PDF和PMF。左图显示了PDF的钟形曲线,曲线下的面积代表连续变量的概率。曲线的峰值位于均值处,其展开程度由标准差决定。右图展示了PMF(以六面骰子投掷为例),表示离散结果,每个可能的结果具有相等的概率。PMF为每个可能的结果分配了具体的概率值。

图3:概率密度函数(左)和概率质量函数(右)的图形表示。

累积分布函数(CDF)

累积分布函数(CDF)是一个函数,它定义了随机变量 X 小于或等于特定值 x 的概率。在数学上CDF 定义为:

F(x) = P(X ≤ x)

CDF 可以理解为概率的"累积和"。它从 0 开始,随着随机变量值的增加而增加,最终达到 1(表示总概率)。

为了更好地理解这些概念,我们将通过两个实例来说明,这些实例与前面解释 PDF 和 PMF 时使用的例子相对应:

示例1:离散随机变量的 CDF(骰子投掷)

考虑投掷一个标准六面骰子的情况。可能的结果是 {1,2,3,4,5,6},每个结果的概率均为 0.167(约等于 1/6)。

我们可以通过累加每个结果的概率来构建 CDF:

当 x = 1 时:P(X ≤ 1) 是结果小于或等于 1 的概率。F(1) = P(X = 1) = 0.167

当 x = 2 时:P(X ≤ 2) 是结果小于或等于 2 的概率。F(2) = P(X ≤ 2) = P(X = 1) + P(X = 2) = 0.167 + 0.167 = 0.333

依此类推,当 x = 6 时,CDF 包括了所有可能的结果(因为骰子不可能产生大于 6 的结果),因此总概率为 1。F(6) = P(X ≤ 6) = P(X = 1) + P(X = 2) + ... + P(X = 6) = 1

由此可见CDF 是逐步增加的,累积了每个结果的概率。如果我们绘制这个函数,会得到一个阶梯状的图形,这是离散变量 CDF 的典型特征。

示例2:连续随机变量的 CDF(均匀分布)

现在让我们考虑一个连续变量的情况。假设 X 遵循 0 到 1 之间的均匀分布。均匀分布的 PDF 在区间 [0,1] 内为常数 1,在其他区间为 0。

我们可以通过对 PDF 进行积分来计算 CDF。

对于 x = 0.2,CDF 就是从 0 到 0.2 的 PDF 下的面积。我们对 PDF 在区间 [0, 0.2] 上积分,得到结果 0.2。

对于 x = 1,我们对 PDF 在区间 [0, 1] 上积分,CDF 的值为 1。

由于这是均匀分布,CDF 从 0 线性增加到 1。如果我们绘制这个函数,如下图所示会得到一条从点 (0, 0) 到点 (1, 1) 的直线,反映了 0 和 1 之间所有值具有相等概率的特性。

图4:左图显示了离散随机变量(骰子投掷)的 CDF,展示了骰子投掷结果概率的阶梯式累积。右图是连续随机变量(均匀分布)的 CDF,显示了从 0 到 1 的连续均匀分布概率的平滑线性增加。

结论

累积分布函数(CDF)是理解离散和连续设置中概率分布的强大工具。它使我们能够直观地看到任何给定点之前的累积概率,特别适用于计算区间概率。这些概念在数据分析、统计推断和机器学习算法中有广泛的应用。对于那些正在学习数据科学和统计学的读者,深入理解这些基本概念将为更高级的主题奠定坚实的基础。

https://avoid.overfit.cn/post/4571cfdbae7b43b2b6db94769f433d66

作者:Uzmasherali

目录
相关文章
|
13天前
|
安全 Android开发 iOS开发
安卓与iOS的较量:技术特性与用户体验的深度解析
在移动操作系统的战场上,安卓和iOS一直占据着主导地位。本文将深入探讨这两大平台的核心技术特性,以及它们如何影响用户的体验。我们将从系统架构、应用生态、安全性能和创新功能四个方面进行比较,帮助读者更好地理解这两个系统的异同。
44 3
|
8天前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
2天前
|
存储 关系型数据库 MySQL
技术解析:MySQL中取最新一条重复数据的方法
以上提供的两种方法都可以有效地从MySQL数据库中提取每个类别最新的重复数据。选择哪种方法取决于具体的使用场景和MySQL版本。子查询加分组的方法兼容性更好,适用于所有版本的MySQL;而窗口函数方法代码更简洁,执行效率可能更高,但需要MySQL 8.0及以上版本。在实际应用中,应根据数据量大小、查询性能需求以及MySQL版本等因素综合考虑,选择最合适的实现方案。
14 6
|
10天前
|
API 云计算 开发者
使用宜搭平台带来的便利:技术解析与实践
【9月更文第8天】随着企业信息化建设的不断深入,业务流程自动化的需求日益增长。宜搭平台作为一种高效的应用构建工具,为企业提供了快速搭建各类业务系统的可能。本文将探讨使用宜搭平台给企业和开发者带来的便利,并通过具体的代码示例展示其优势。
45 11
|
12天前
|
监控 网络协议 API
.NET WebSocket 技术深入解析,你学会了吗?
【9月更文挑战第4天】WebSocket 作为一种全双工协议,凭借低延迟和高性能特点,成为实时应用的首选技术。.NET 框架提供了强大的 WebSocket 支持,使实时通信变得简单。本文介绍 WebSocket 的基本概念、.NET 中的使用方法及编程模型,并探讨其在实时聊天、监控、在线游戏和协同编辑等场景的应用,同时分享最佳实践,帮助开发者构建高效实时应用。
54 12
|
6天前
|
存储 负载均衡 Java
Jetty技术深度解析及其在Java中的实战应用
【9月更文挑战第3天】Jetty,作为一款开源的、轻量级、高性能的Java Web服务器和Servlet容器,自1995年问世以来,凭借其卓越的性能、灵活的配置和丰富的扩展功能,在Java Web应用开发中占据了举足轻重的地位。本文将详细介绍Jetty的背景、核心功能点以及在Java中的实战应用,帮助开发者更好地理解和利用Jetty构建高效、可靠的Web服务。
20 2
|
11天前
|
定位技术 网络虚拟化 数据中心
VLAN与VXLAN技术解析:仅一字之差的深远区别
通过深入了解VLAN与VXLAN的技术细节和应用场景,网络工程师可以根据具体需求选择最合适的技术来优化网络架构。对于现代网络环境,尤其是大规模和多变的网络结构,理解并合理运用这些技术是提高网络效率和安全性的关键。
27 1
|
5天前
|
消息中间件 安全 Kafka
Kafka支持SSL/TLS协议技术深度解析
SSL(Secure Socket Layer,安全套接层)及其继任者TLS(Transport Layer Security,传输层安全)是为网络通信提供安全及数据完整性的一种安全协议。这些协议在传输层对网络连接进行加密,确保数据在传输过程中不被窃取或篡改。
11 0
|
5天前
|
分布式计算 Java Apache
Apache Spark Streaming技术深度解析
【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次(micro-batch),然后利用Spark的批处理引擎进行处理,从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量,又能够处理实时数据流。
18 0
|
6天前
|
SQL 关系型数据库 MySQL
MySQL技术安装配置、数据库与表的设计、数据操作解析
MySQL,作为最流行的关系型数据库管理系统之一,在WEB应用领域中占据着举足轻重的地位。本文将从MySQL的基本概念、安装配置、数据库与表的设计、数据操作解析,并通过具体的代码示例展示如何在实际项目中应用MySQL。
26 0

推荐镜像

更多