文档备案控制台

开发者社区开发与运维文章正文

朴素贝叶斯法(二)——基本方法

2017-10-12 1337

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法

基本方法

总论

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y)，然后得到后验概率P(Y|X)。即：

一）利用训练数据得到P(X|Y)和P(Y)的估计

二）根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)

三）根据公式P(Y|X)=得到 P(Y|X)

展开

假设

输入空间χ⊆Rⁿ为n维向量的集合

输出空间为类标记集合У={c₁,c₂,…c_K}

输入为特征向量x∈χ

输出为类标记y∈У

X是定义在输入空间χ上的随机变量

Y是定义在输出空间У上的随机变量

训练数据集为T={(x₁,x₂),(x₂,y₂),…(x_N,y_N)}

特征的总个数为n

每一个特征的可能取值为S_j

训练数据的总个数为N

类标记个数为K

推导

一）通过训练数据得到

1. 先验概率P(Y=c_k), k=1,2,…K

2. 条件概率分布P(X=x|Y=c_k)=P(X⁽¹⁾=x⁽¹⁾,…X⁽ⁿ⁾=x⁽ⁿ⁾|Y=c_k)

朴素贝叶斯法的基本假设为条件独立性，即用于分类的特征在类确定的条件下都是条件独立的。所以

P(X=x|Y=c_k)=P(X⁽¹⁾=x⁽¹⁾,…X⁽ⁿ⁾=x⁽ⁿ⁾|Y=c_k)

= P(X^(j)=x^(j) |Y=c_k)

对于参数P(Y=c_k)、P(X^(j^）=x|Y=c_k)的估计可以是几大似然估计也可以是贝叶斯估计。

极大似然估计

P(Y=c_k)=

设第j个特征x(j)可能的取值为｛a_j1,a_j2,…a_jsj｝个数为S_j个

P(X^(j)=x_jl|Y=c_k)=

贝叶斯估计

用几大似然估计可能会出现所要估计的概率值为0的情况，这时候影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计的方法估计。此时条件概率的贝叶斯估计为

P (X^(j)=x_jl|Y=c_k)=

等价于在随机变量的各个取值的频数上加上一个正数。当时为极大似然估计，常去，此时成为拉普拉斯平滑。显然有

P (X^(j)=x_jl|Y=c_k)>0

P (X^(j)=x_jl|Y=c_k) = 1

同样P(Y=c_k)=

二）根据公式P(X,Y)=P(Y)P(X|Y)得到P(X,Y)

三）根据公式P(Y|X)=得到 P(Y|X)

P(X)=

=

P(Y|X)= =P(Y=c_k)P(X^(j)=x^(j) |Y=c_k) /

可以看出此时分母是一样的，所以，

y=arg P(Y=c_k)P(X^(j)=x^(j) |Y=c_k)

后验概率最大化的含义

y=arg P(Y=c_k)P(X^(j)=x^(j) |Y=c_k)

等价式是取得最大值，原因是：朴素贝叶斯法将实例分到后验概率最大的类中，这等价于期望风险最小化。后验概率最大等价于0-1损失函数的期望风险最小化。

假设选择0-1损失函数：

L(Y,f(X)) = ，f(X)是分类决策函数

此时，期望风险函数为

R_exp(f) = E[L(Y,f(X))]

=

=

=

=Ex)

可以看出是取条件期望，设

f(x)=

（0-1损失函数，相等的为0）

=

=argmaxP(y=ck|X=x)

这样一来，风险最小化准则得到后验概率最大化准则：

f(x)=argmaxP(c_k|X=x)

本文转自jihite博客园博客，原文链接：http://www.cnblogs.com/kaituorensheng/p/3379478.html，如需转载请自行联系原作者

文章标签：

云数据库 ClickHouse

Python

技术mix呢

目录

相关文章

$雪地伤孤$

|

5天前

|

人工智能 JSON 监控

Claude Code 源码泄露：一份价值亿元的 AI 工程公开课

我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码，我发现自己错了。

$雪地伤孤$

3985 10 42

LucianaiB

|

15天前

|

人工智能 JSON 机器人

让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw

本文带你零成本玩转OpenClaw：学生认证白嫖6个月阿里云服务器，手把手配置飞书机器人、接入免费/高性价比AI模型（NVIDIA/通义），并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿，5分钟完成热点→文章全流程！

LucianaiB

11605 134 485

让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw

LucianaiB

|

3天前

|

人工智能数据可视化安全

王炸组合！阿里云 OpenClaw X 飞书 CLI，开启 Agent 基建狂潮！(附带免费使用6个月服务器)

本文详解如何用阿里云Lighthouse一键部署OpenClaw，结合飞书CLI等工具，让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念：未来软件应为AI而生，CLI即AI的“手脚”，实现高效、安全、可控的智能自动化。

LucianaiB

1409 6 20

王炸组合！阿里云 OpenClaw X 飞书 CLI，开启 Agent 基建狂潮！(附带免费使用6个月服务器)

霍格沃兹测试开发学社

|

5天前

|

人工智能自然语言处理数据挖掘

零基础30分钟搞定 Claude Code，这一步90%的人直接跳过了

本文直击Claude Code使用痛点，提供零基础30分钟上手指南：强调必须配置“工作上下文”（about-me.md+anti-ai-style.md）、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法，助你将Claude从聊天工具升级为高效执行系统。

霍格沃兹测试开发学社

2167 2 17

卷福同学

|

5天前

|

人工智能定位技术

Claude Code源码泄露：8大隐藏功能曝光

2026年3月，Anthropic因配置失误致Claude Code超51万行源码泄露，意外促成“被动开源”。代码中藏有8大未发布功能，揭示其向“超级智能体”演进的完整蓝图，引发AI编程领域震动。（239字）

卷福同学

2294 9 10

阿里云安全_

|

5天前

|

存储人工智能监控

当篮球遇见AI：阿里云为“我的NBA手办”装上AI安全护栏

阿里云 X NBA

阿里云安全_

1153 0 2

当篮球遇见AI：阿里云为“我的NBA手办”装上AI安全护栏

热门文章

最新文章

DNS查询工具简介

Tomcat 7优化配置参数

《Cloud Native 》云原生技术汇总

Spring Boot 学习研究笔记(十七) -Spring boot JPA的复杂查询

单片机基础知识整理

手写redux方法以及数组reduce方法

以优质氘代产品为刃，劈开生物原材料市场壁垒

canvas-渐变文字

日本设计的七个原则

struts2学习笔记--总结获取servletAPI的几种方式

零基础零门槛！OpenClaw阿里云无影云电脑一键部署、iMessage对接与大模型千问Qwen3.6-Plus配置实战手册

阿里云轻量服务器部署OpenClaw图文教程：飞书集成+千问Qwen3.6-Plus配置+新手避坑指南

Claude Code、Codex接管开发流程，测试工程师下一步该做什么？

阿里云ECS云服务器部署 OpenClaw 图文攻略｜LINE集成+千问Qwen3.6-Plus配置+新手避坑指南

别再无效刷题了！2026校招笔试高频考点权重排序（附大厂内部评分标准）

阿里云计算巢部署 OpenClaw 图文攻略：微信小程序集成+千问Qwen3.6-Plus配置+新手避坑指南

零基础保姆级图文教程：阿里云计算巢OpenClaw部署、微信小程序接入与千问大模型API配置及避坑指南

“养龙虾”全攻略｜OpenClaw(龙虾AI)阿里云轻量服务器零基础部署+QQ等四大IM集成+千问API配置指南

分布式事务解决方案Seata之AT事务

基于 YOLO的咖啡果实成熟度检测系统~Python+YOLO算法+模型训练+目标检测+2026原创

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

PHP：将本地文件上传到阿里云OSS存储