备案控制台

开发者社区 ModelScope模型即服务文章正文

Machine Learning-L7-最大熵模型

2022-11-21 201

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： Machine Learning-L7-最大熵模型

1. 最大熵原理

最大熵（Maximum Entropy）原理是概率模型学习的一个准则，认为在所有可能的概率模型（分布）中，熵最大的模型就是最好的模型，在1957年由Edwin Thompson Jaynes提出。

该原理对一个随机事件的概率分布进行预测时，认为预测应当满足全部已知的约束，而对未知的情况不做任何主观假设。此时，概率分布最均匀，预测的风险最小，得到的概率分布的熵最大。

最大熵原理根据以下两个原则解决问题：

满足已知信息（约束条件）

不做任何未知假设（约束外事件等概率发生）

通常用约束条件来确定概率模型的集合，最大熵原理就是满足一定的约束条件下，选择熵最大的模型。

e.g

假设5个盒子ABCDE，奖品就放在这5个盒子中的一个，请问奖品在ABCDE盒子里的概率分别是多少？

已知奖品在其中一个盒子里，约束条件为P ( A ) + P ( B ) + P ( C ) + P ( D ) + P ( E ) = 1

由于无其他额外信息，只能假设奖品在每个盒子里的概率都是1 / 5，P ( A ) = P ( B ) = P ( C ) = P ( D ) = P ( E ) = 1 / 5

如果知道了额外信息，奖品在A和B中的概率总共为3 / 10 3/103/10，则

约束条件：P ( A ) + P ( B ) = 3 / 10 ; P ( C ) + P ( D ) + P ( E ) = 7 / 10

按照最大熵等概率的原理：P ( A ) = P ( B ) = 3 / 20 ; P ( C ) = P ( D ) = P ( E ) = 7 / 30

最大熵原理在对一个随机事件的概率分布进行预测时，预测应当满足全部已知条件，而对未知情况不做任何主观假设。此时概率分布最均匀，信息熵最大，预测的风险最小。常说的不要把所有鸡蛋放到一个篮子里，就是最大熵原理的朴素表达。

2. 最大熵模型定义

假设分类模型是一个条件概率分布P ( Y ∣ X ) ，给定训练集，可以计算：

总体联合分布P ( X , Y ) 的经验分布

边缘分布P ( X )的经验分布：

其中，count(X=x,Y=y)表示训练集中样本( x , y ))出现的频数，c o u n t ( X = x )表示训练集中输入x xx出现的频数，M MM为训练样本的数量。

特征函数f(x,y)描述输入x 和输出y之间的关系，定义如下：

特征函数类似离散数学集合论中的指示函数，指示函数是定义在集合上的函数，用来表示其中哪些元素属于某一子类。

特征函数f ( x , y ) 关于经验分布P ~ ( X , Y ) 的期望值：

特征函数f ( x , y ) 关于条件分布P ( Y ∣ X ) 和经验分布P ~ ( X )的期望值：

如果模型可以从训练集中学习，则假设：

上式就是最大熵模型学习的约束条件，假如有M MM个特征函数f i (x,y)(i=1,2...,n)，就有m 个约束条件（可理解为训练集里所有样本对应的m 个约束条件）。

3. 最大熵模型

假设满足所有约束条件的模型集合为：

条件概率分布P ( Y ∣ X ) 上的条件熵为：

模型集合C 中使条件熵H ( P ) 最大的模型称为最大熵模型：

4. 最大熵模型学习

最大熵模型定义如下，给定训练集特征函数f i ( x , y ) ， i = 1 , 2 … , n

最大熵模型学习就是求解最大熵模型的过程，最大熵模型学习等价于约束最优化问题。

（1）转化为无约束优化问题

引入拉格朗日乘子，定义拉格朗日函数：

此时，优化目标为：

原问题满足KKT条件，根据拉格朗日对偶可得其对偶问题：

（2）求解内部极小化问题

min P∈CL(P,w)是关于w 的函数，记作：

其解记作：

由于求解P 的最小值P w ，令

可得：

P w(y∣x)即为MaxEnt模型，其中f i ( x , y ) 为特征函数，w ₁ 为特征的权值。

（3）求解外部极大化问题

模型转化为求Ψ ( w ) 的极大化问题，最优解记作

这是是一个凸优化问题，可应用梯度下降法，牛顿法，拟牛顿法等最优化算法。

对于最大熵模型还有一种专用的优化方法，称为改进的迭代尺度法（improved iterative scaling, IIS）。

得到极大化时对应的w向量取值后，带入P ( y ∣ x )和w 的关系式，就可得到P ( y ∣ x )的最终结果。

4. 最大熵模型与逻辑回归

最大熵模型最后的解的其形式与softmax是等价的，又称为对数线性模型（log linear model）。

softmax用于多分类问题，逻辑回归解决二分类问题。因此逻辑回归模型，本质上是最大熵模型。

模型的学习归结为以似然函数为目标函数的最优化问题（对模型进行极大似然估计或正则化的极大似然估计），通常通过迭代方法求解。

数据集，n 个约束，构建特征函数如下：

总结

最大熵模型在经典分类模型中准确率较高，并且可以灵活地设置约束条件，通过约束条件的多少调节模型对未知数据的适应度和对已知数据的拟合程度。

由于约束函数的数目一般会随着样本量的增大而增大，导致对偶函数优化求解的迭代过程非常慢，难以应用（scikit-learn中没有最大熵模型的类库）。

文章标签：

Python

机器学习/深度学习

Windows

算法

机器学习Zero

目录

相关文章

全栈技术精选

|

机器学习/深度学习人工智能算法

The 10 Algorithms Machine Learning Engineers Need to Know

The 10 Algorithms Machine Learning Engineers Need to Know

全栈技术精选

87 0 0

断墨寻径

|

传感器监控自动驾驶

Machine Learning

Machine Learning

断墨寻径

112 0 0

小小何先生

|

机器学习/深度学习编解码算法

【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

小小何先生

161 0 0

auqbllxiu

《The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn》电子版地址

The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn

auqbllxiu

98 0 0

《The 8 Neural Network Architectures Machine Learning Resarchers Need to Learn》电子版地址

auqbllxiu

《Deep Learning vs.Machine Learning-the essential differences you need to know!》电子版地址

Deep Learning vs.Machine Learning-the essential differences you need to know!

auqbllxiu

133 0 0

《Deep Learning vs.Machine Learning-the essential differences you need to know!》电子版地址

机器学习Zero

|

存储算法

Machine Learning-L11-KNN

Machine Learning-L11-KNN

机器学习Zero

130 0 0

Machine Learning-L11-KNN

机器学习Zero

|

算法数据建模数据挖掘

Machine Learning-L4-决策树

Machine Learning-L4-决策树

机器学习Zero

171 0 0

Machine Learning-L4-决策树

机器学习Zero

|

机器学习/深度学习自然语言处理算法

Machine Learning-L16-概率图模型

Machine Learning-L16-概率图模型

机器学习Zero

224 0 0

Machine Learning-L16-概率图模型

振华OPPO

|

机器学习/深度学习

这就是Machine Learning

这就是Machine Learning

振华OPPO

151 0 0

这就是Machine Learning

megachen

|

数据挖掘

Machine learning preface

Machine learning Preface Definition T: Task E: Experience P: Performance Sequence: T -> E -> P Supervised learning Definition Give the right answer...

megachen

935 0 0

ModelScope模型即服务

热门文章

最新文章

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

Trae 接入 Claude 3.7：AI 编程工具界的“卷王”，完全免费使用！

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

阿里云通义千问向全社会开放！

本地部署DeepSeek模型

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

高效部署通义万相Wan2.1：使用Gradio搭建WebUI体验实战

通义万相Wan2.1视频模型开源！视频生成模型新标杆，支持中文字效+高质量视频生成

千问团队开源会思考的QwQ模型，这模型成精了！

OWL：告别繁琐任务！开源多智能体系统实现自动化协作，效率提升10倍

Nanobrowser：开源版OpenAI Operator！AI自动操控浏览器，复杂网页任务一键搞定

Heygem：开源数字人克隆神器！1秒视频生成4K超高清AI形象，1080Ti显卡也能轻松跑

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

AppAgentX：告别重复点击！自我进化式GUI代理自动生成高级操作，效率翻倍

SAFEARENA: 评估自主网络代理的安全性

解读 | 金融长上下文基准测试FailSafeQA：解锁金融领域LLM真实的审慎性和容错性

QwQ-32B，支持Function Call的推理模型，深度思考Agent的时代来了！

腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本，社区部署、推理实战教程来啦！

autoMate：无需视觉模型！用DeepSeek-V3/R1就能实现自动化操作电脑，支持任何可视化界面

URO-Bench：端到端语音对话模型评测黑马！多语言/多轮/副语言全维度一键开测

相关电子书

更多

Me-Through-Machine-Learning

What Machine Learning Can Do f

Developing a Machine Learning

下一篇

通义万相2.1视频/图像模型新升级！可在阿里云百炼直接体验