概率与信息论

简介: 概率与信息论

概率论学科定义
概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明(statement)的公理。概率论的知识在机器学习和深度学习领域都有广泛应用,是学习这两门学科的基础。

概率与信息论在人工智能领域的应用
在人工智能领域,概率论主要有两种用途。

首先,概率定律告诉我们 AI 系统应该如何推理,基于此我们设计一些算法来计算或者估算由概率论导出的表达式。
其次,我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。
虽然概率论允许我们在存在不确定性的情况下做出不确定的陈述和推理,但信息论允许我们量化概率分布中不确定性的数量。

3.1,为什么要使用概率论
这是因为机器学习必须始终处理不确定的量,有时可能还需要处理随机(非确定性)的量,这里的不确定性和随机性可能来自多个方面。而使用使用概率论来量化不确定性的论据,是来源于 20 世纪 80 年代的 Pearl (1988) 的工作。

不确定性有三种可能的来源:

被建模系统内在的随机性。
不完全观测。
不完全建模:使用了一些必须舍弃某些观测信息的模型。
3.2,随机变量
随机变量(random variable)是可以随机地取不同值的变量,它可以是离散或者连续的。

离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数; 它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。注意,随机变量只是对可能状态的描述;它必须与指定这些状态中的每一个的可能性的概率分布相结合。

我们通常用无格式字体 (plain typeface) 中的小写字母来表示随机变量本身,而用手写体中的小写字母来表示随机变量能够取到的值。例如, 和 都是随机变量 可能的取值。对于向量值变量,我们会将随机变量写成 ,它的一个可能取值为 。

中文维基百科用 表示随机变量,用 表示概率密度函数,本文笔记,不同小节内容两者混用。

3.3,概率分布
概率分布(probability distribution)是用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。

如果狭义地讲,它是指随机变量的概率分布函数。具有相同概率分布函数的随机变量一定是相同分布的。连续型和离散型随机变量的概率分布描述方式是不同的。

3.3.1,离散型变量和概率质量函数
离散型变量的概率分布可以用概率质量函数(probability mass function, PMF,也称概率密度函数)来描述。我们通常用大写字母 来表示概率质量函数,用 表示随机变量 遵循的分布。

虽然通常每一个随机变量都会有一个不同的概率质量函数,但是概率质量函数也可以同时作用于多个随机变量,这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。 表示 和 同时发生的概率,有时也可简写为 ,。

如果一个函数 是随机变量 的 PMF,必须满足以下条件:

的定义域必须是 所有可能状态的集合。
。不可能发生的事件概率为 0,能够确保一定发生的事件概率为 1。
,归一化(normalized)。
常见的离散概率分布族有:

伯努利分布
二项分布:一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。
几何分布
Poisson 分布(泊松分布):Poisson 近似是二项分布的一种极限形式。
离散均匀分布:即对于随机变量 ,因为其是均匀分布(uniform distribution),所以它的 PMF 为

,同时


3.3.2,连续型变量和概率密度分布函数
连续型随机变量的概率分布可以用概率密度函数(probability desity function, PDF)来描述。

通常用小写字母 来表示随机变量 的概率密度函数 PDF,其必须满足以下条件:

的定义域必须是 所有可能状态的集合。
。注意,并不要求 。

概率密度函数 给出的是落在面积为 的无限小的区域内的概率为 。

因此,我们可以对概率密度函数求积分来获得点集的真实概率质量。特别地, 落在集合 中的概率可以通过 对这个集合求积分来得到。在单变量的例子中, 落在区间 的概率是 。

常见的连续概率分布族有:

均匀分布
正态分布:连续型随机变量的概率密度函数如下所示。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中 是平均值, 是标准差。正态分布是一种理想分布。

伽玛分布
指数分布

目录
相关文章
|
SQL 编解码 网络安全
|
Rust 算法 Go
【密码学】一文读懂FNV Hash
FNV哈希全名为Fowler-Noll-Vo算法,是以三位发明人Glenn Fowler,Landon Curt Noll,Phong Vo的名字来命名的,最早在1991年提出。它可以快速hash大量的数据并保持较小的冲突概率,适合hash一些相近的字符串比如IP地址、URL、文件名等等。目前FNV算法有三个版本,分别是: FNV-0(已废弃)、FNV-1以及FNV-1a。这三个算法的结构非常相似,因此呢,在这里就一块说了。
3720 0
【密码学】一文读懂FNV Hash
|
8月前
|
并行计算 安全 Java
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
在Python开发中,GIL(全局解释器锁)一直备受关注。本文基于CPython解释器,探讨GIL的技术本质及其对程序性能的影响。GIL确保同一时刻只有一个线程执行代码,以保护内存管理的安全性,但也限制了多线程并行计算的效率。文章分析了GIL的必要性、局限性,并介绍了多进程、异步编程等替代方案。尽管Python 3.13计划移除GIL,但该特性至少要到2028年才会默认禁用,因此理解GIL仍至关重要。
556 16
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
|
11月前
|
人工智能 机器人 芯片
【通义】AI视界|苹果发布macOS Sequoia 15.1最新公测版:可体验Apple Intelligence
本文概览了近期科技动态,包括英伟达与台积电合作遇阻、亿万富翁投资者Druckenmiller后悔清仓英伟达、阿斯麦财报显示芯片需求复苏缓慢、苹果发布macOS Sequoia 15.1公测版及波士顿动力与丰田合作推进人形机器人技术。更多信息,请访问通义。
|
7月前
|
存储 固态存储
磁盘和内存的区别
存储特性: • 磁盘:非易失性存储,数据在断电后不会丢失,适合长期存储数据。 • 内存:易失性存储,数据在断电后会丢失,适合临时存储当前运行的程序和数据。 容量: • 磁盘:容量通常较大,从几百GB到数TB不等,适合存储大量的文件和数据。 • 内存:容量相对较小,一般在几GB到几十GB之间,用于提供快速的临时存储空间。 速度: • 磁盘:读写速度较慢,HDD一般在几十MB/s,SSD可以达到几百MB/s甚至数GB/s。 • 内存:读写速度非常快,通常在几十纳秒到几百纳秒之间,能够快速响应CPU的指令。
351 2
|
8月前
|
敏捷开发 数据可视化 数据挖掘
告别手工报表!家电巨头“简化工作方式”背后的数字化思考
企业管理中手工填报耗时低效问题突出。钉钉宜搭通过低代码开发,实现自动化流程,解放人工操作;Quick BI 提供智能数据分析与可视化,助力管理者实时掌握经营动态,提升决策效率。两者结合成为企业数字化提效的热门选择。
234 22
|
存储 API 持续交付
OpenStack组件Keystone
【8月更文挑战第20天】
259 3
|
存储 算法 Android开发
AVB校验微观版本:android avb(Android Verified Boot)验证
AVB校验微观版本:android avb(Android Verified Boot)验证
1637 0
|
数据采集 SQL 关系型数据库
在 MySQL 中使用 ASCII
【8月更文挑战第11天】
308 1
在 MySQL 中使用 ASCII
|
Linux API C语言
lua 如何在嵌入式Linux中与c语言结合
lua 如何在嵌入式Linux中与c语言结合
233 1