朴素贝叶斯法(二)——基本方法

简介:

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法

 

基本方法

总论

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后得到后验概率P(Y|X)。即:

一)利用训练数据得到P(X|Y)P(Y)的估计

二)根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)

三)根据公式P(Y|X)=clip_image002得到 P(Y|X)

展开

假设

输入空间χ⊆Rnn维向量的集合

输出空间为类标记集合У={c1,c2,…cK}

输入为特征向量x∈χ

输出为类标记yУ

X是定义在输入空间χ上的随机变量

Y是定义在输出空间У上的随机变量

训练数据集为T={(x1,x2),(x2,y2),…(xN,yN)}

特征的总个数为n

每一个特征的可能取值为Sj

训练数据的总个数为N

类标记个数为K

推导

一)通过训练数据得到

1.  先验概率P(Y=ck), k=1,2,…K

2.  条件概率分布P(X=x|Y=ck)=P(X(1)=x(1),…X(n)=x(n)|Y=ck)

朴素贝叶斯法的基本假设为条件独立性,即用于分类的特征在类确定的条件下都是条件独立的。所以

P(X=x|Y=ck)=P(X(1)=x(1),…X(n)=x(n)|Y=ck)

           clip_image004P(X(j)=x(j) |Y=ck)

对于参数P(Y=ck)P(X(j=x|Y=ck)的估计可以是几大似然估计也可以是贝叶斯估计。

极大似然估计

P(Y=ck)=clip_image006

设第j个特征x(j)可能的取值为{aj1,aj2,…ajsj}个数为Sj

P(X(j)=xjl|Y=ck)=clip_image008

贝叶斯估计

用几大似然估计可能会出现所要估计的概率值为0的情况,这时候影响到后验概率的计算结果,使分类产生偏差。解决这一问题的方法是采用贝叶斯估计的方法估计。此时条件概率的贝叶斯估计为

Pclip_image010 (X(j)=xjl|Y=ck)=clip_image012

等价于在随机变量的各个取值的频数上加上一个正数clip_image014。当clip_image016时为极大似然估计,常去clip_image018,此时成为拉普拉斯平滑。显然有

Pclip_image010[1] (X(j)=xjl|Y=ck)>0

clip_image020Pclip_image010[2] (X(j)=xjl|Y=ck) = 1

同样P(Y=ck)=clip_image022

二)根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)

三)根据公式P(Y|X)=clip_image002[1]得到 P(Y|X)

P(X)=clip_image024

    =clip_image026

P(Y|X)=clip_image002[2] =P(Y=ck)clip_image028P(X(j)=x(j) |Y=ck) / clip_image030

可以看出此时分母是一样的,所以,

y=argclip_image032 P(Y=ck)clip_image028[1]P(X(j)=x(j) |Y=ck)

后验概率最大化的含义

y=argclip_image032[1] P(Y=ck)clip_image034P(X(j)=x(j) |Y=ck)

等价式是取得最大值,原因是:朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。后验概率最大等价于0-1损失函数的期望风险最小化。

假设选择0-1损失函数:

L(Y,f(X)) = clip_image036f(X)是分类决策函数

此时,期望风险函数为

Rexp(f) = E[L(Y,f(X))]

=clip_image038

clip_image040

=clip_image042

=Exclip_image044)

 

可以看出是取条件期望,设

f(x)=clip_image046

clip_image048 0-1损失函数,相等的为0

=clip_image050 

=argmaxP(y=ck|X=x)

这样一来,风险最小化准则得到后验概率最大化准则:

f(x)=argmaxP(ck|X=x)

 





本文转自jihite博客园博客,原文链接:http://www.cnblogs.com/kaituorensheng/p/3379478.html,如需转载请自行联系原作者

相关文章
|
5天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
3985 10
|
15天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11605 134
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
3天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
1409 6
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
5天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
5天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2294 9

热门文章

最新文章