【机器学习算法】10、朴素贝叶斯算法+中文分词项目实战(一)

简介: 【机器学习算法】10、朴素贝叶斯算法+中文分词项目实战(一)

简介


朴素贝叶斯算法是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法,即通过考虑特征概率来预测分类。该算法采用了“特征属性独立性假设”的方法,即对已知类别,假设所有特征属性相互独立。换言之,假设每个特征属性独立地对分类结果发生影响。


   朴素贝叶斯法是基于贝叶斯定理特征属性独立假设的分类方法,属于监督学习的生成模型。对于给定的训练数据集,首先基于特征属性独立假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入,利用贝叶斯定理估计后验概率最大输出。


   朴素贝叶斯法由稳定的分类效率,在大量样本下会有比较好的表现,对小规模的数据仍然有效,能处理多分类任务。其次,朴素贝叶斯适合增量式训练,即可以实时对新增样本进行训练。同时,由于朴素贝叶斯法对缺失数据不敏感,通常用于文本分类识别、欺诈检测、垃圾邮件过滤、拼写检查等领域。

贝叶斯分类器的基本原理就是:通过某对象的先验概率,利用贝叶斯公式计算出后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。


贝叶斯定理


先验概率:根据以往经验和分析得到的概率


全概率公式:设试验E的样本空间为S,A为E的事件,B1,B2,...,Bn为样本空间的一个划分,且P(Bi)≥0(i=1,2,...,n),则有:

贝叶斯定理:设试验E的样本空间为S,A为E的事件,B1,B2,...,Bn为样本空间的一个划分,且P(A)>0, P(Bi)≥0(i=1,2,...,n),则有:


朴素贝叶斯算法流程



朴素贝叶斯算法具体步骤


(1)确定特征属性xj,获取训练样本集合yj;

   该步骤的主要工作就是根据具体情况确定特征属性,并对每个特征进行适当划分,然后人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一步是整个朴素贝叶斯分类中唯一需要人工完成的阶段。


   对于所有待分类数据,确定其特征属性xj,获取训练样本集合yj:

98deae8cf4384d61bbe7dbb873fb2b27.png

其中m表示m个样本,n表示每个样本有n个特征。yi表示训练样本,取值为{C1,C2,...,Ck}


(2)计算各类别的先验概率P(Y=Ck)

   针对训练样本集,可以利用最大似然估计计算出先验概率。但为了弥补最大似然估计中可能出现概率值为0的情况,也就是某个事件出现的次数为0,我们可以使用贝叶斯估计计算先验概率:

dcfedf2bb24359228a68be77b9259a2a.png

其中

2a84afce9b0e8a704b17eb99e856e518.png

(3)计算各类别下各特征属性xj的条件概率P(Xj=xj|Y=Ck)(j=1,2,...,n)

如果xj是离散值,可以假设xj符合多项式分布,这样得到的条件概率是在样本类别Ck中特征xj出现的频率,即:

fa1dc37495de2169576ae39ed505cd28.png

   有些时候,可能某些类别在样本中没有出现,这可能导致条件概率为0,这样会有效后验概率的估计。为了避免出现这样的情况,在这里引入拉普拉斯平滑,即此时有:

8dd0940bbe643ac7940da2ec8013e4f6.png

如果xj是稀疏二项离散值,即各个特征出现概率很低,可以假设xj符合伯努利分布,即特征xj出现记为1,不出现记为0。这里不关注xj出现的次数,这样得到的条件概率是在样本类别Ck中xj出现的频率。此时有:

936644c597bbd76fc83383f8ab5caaf8.png

如果xj是连续值,通常取xj的先验概率为正态分布,即在样本类别Ck中,xj的值符合正态分布。这样得到的条件概率分布是:

   其中,μk和σ2是正态分布的期望和方差,可以通过最大似然估计求得,μk为在样本类别Ck中,所有Xj的均值。σ2为在样本类别中,所有Xj的方差,对于一个连续的样本值,代入正态分布的公式,就可以得到概率分布。


(4)计算各类别的后验概率P(Y=Ck|X=x)

   由于假设各特征属性是条件独立的,则根据贝叶斯定理,各类别的后验概率有如下的推导:

(5)把后验概率最大项作为样本所属类别

   预测的样本所属类别Cresult是使得后验概率P(Y=Ck|X=x)最大化的类别,推导如下:

由于对于所有类别计算后验概率时,分母是一样的,因此预测公式可以进一步简化为:

利用朴素贝叶斯的独立性假设,就可以得到通常意义上的朴素贝叶斯推断公式:


贝叶斯分类器的主要特点


相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
164 4
|
18天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
126 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
8天前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
41 14
|
1月前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
61 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
63 1
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
2月前
|
机器学习/深度学习 算法
深入探索机器学习中的决策树算法
深入探索机器学习中的决策树算法
48 0
|
2月前
|
机器学习/深度学习 算法 Python
机器学习入门:理解并实现K-近邻算法
机器学习入门:理解并实现K-近邻算法
46 0
|
5天前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
5天前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。

热门文章

最新文章