分类预测:Bayes Classifier-1|学习笔记(一)

简介: 快速学习分类预测:Bayes Classifier-1

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践 文本相似度计算】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15445


分类预测:Bayes Classifier-1


贝叶斯分类器

贝叶斯分类器是以概率框架来解决分类问题的一种方法,它关键要用到概率的一些知识,如果同学们对于概率的一些基本概念和基本知识有淡忘的话还是应该去补充一下。

我们来先看一下我们在分类算法里面用到的一些概率的知识,首先一个叫条件概率,我们来看一下件概率的定义,条件概率是指在事件A发生的条件下,另一事件C发生的概率,它的表示符号是P(C|A),读作给定A条件下C发生的概率,那么英文的表达式give A情况下C的概率。我们来看一下这个条件概率,它的公式是什么?大家看右边,给定A的情况下面求C的概率,他应该等于A和C共同发生的概率,也叫联合概率,是用P(A,C)表示,然后再除以A单独发生的概率,也就是要描述一下,就是要求给定A情况下面C发生的概率,那么我们要知道A和C同时联合发生的概率,以及A单独发生的概率,那我们就可以求出来给定A条件下C发生的概率。这里有一个叫联合概率的概念,我们来看看联合概率是怎么定义的。联合概率表示两个事件共同发生的概率,那么它的表达方式可以用P(AC)或者P(A,C)或者P(A∩C),这是集合的一个符号交集,这叫联合概率。再看一个条件概率的例子,我们假设是给定C在求i的概率,那么他应该等于A和C的联合概率除以C的单独概率。那么关于条件概率的话,我们现在只是一个概念表达,并没有给大家很感性的一些例子,比较抽象,如果大家理解起来,暂时还不是很通畅,那我们先要学会记忆,虽然记忆也是一种能力,也是一种学习技巧。我们一起看一下这两个联合概率两个条件概率的公式,那么记忆的技巧是什么呢?技巧的话就是分子是两个事件的联合概率,分母是给定的概率,比如说给定A情况下面求C的概率,分子是A和C的联合概率,分母必然是给定的A的概率,同样的给定C情况下的A的概率的话,那么分母分子的话是A和C的联合概率,分母的话是给定C的单独概率,所以大家呢要先能够有记忆的一个能力,那么至于说抽象没有感性的认识,我们后面可以通过例子来给大家讲解。有了条件概率以后,我们就可以推导出贝叶斯公式或者贝叶斯定理。贝叶斯它是一个英国的数学家,是1701年~1761年期间的人物,贝叶斯科学家的话,他的贡献是非常巨大的,我们现在的人工智能,大数据深度学习等等,都用了很多概率的知识,如果没有贝叶斯的话,有人认为人工智能可能会倒退两三百年。我们来看贝叶斯的定理,给定A的情况下求C的概率,我们把原来的这个条件概率的公式转换一下,原来的上面分子应该是A和C的联合概率,联合概率比较难求,我们把这个分母移到左边去,那就变成了给定C情况下面A的概率在乘以C的单独概率,分母是给定A的单独概率,这就是著名的贝叶斯定理。我们再来记一下,求给定A情况下的C的概率,等于A的先验概率是已知的,然后来求给定A情况下点C的概率是个后验概率,那么它等于什么呢?等于就是我们要知道给定C情况下的A的概率以及C的单独概率,再除以A的单独概率,这样就是贝叶斯的定理,也叫贝叶斯公式,贝叶斯原理,这对我们后面数据挖掘的分类非常重要。

image.gif1、概率基本知识回顾

前面我们一下子接触了很多概率的基本概念,条件概率,联合概率,先验概率,后验概率,贝叶斯定理定理等等。下面我们帮助同学们再回忆一些最基本的概率的知识,首先是关于概率的定义,概率的定义是量度或者度量某事或某事件发生几率的一种数量指标,我们可以用这样的公式来表达A)事件发生的概率是P(A)=n(A)/n(S),这就是A事件发生的概率,S是整个概率空间,也成为样本空间,是所有可能的结果,而实际发生的事情,比如说A它是S的子集。我们在后面数据挖掘当中要计算概率的时候,那么一个基本的方法,就是计算每个类别样本的数量除以总样本数量,就是那个类别样本的概率。比如说家庭收入低中高的家庭收入,低的样本的数量除以总数,就是家庭收入低的样本的概率,家庭收入中的样本的数量除以总的样本数量,就是家庭收入中的样本的概率。

下面我们再来看一下,一个可视化表达概率的方法叫维恩图,这个维字大家看到资料里面也有这样的表达,用这个韦来表示,也叫做文氏图,它是概率的图形表示在集合论当中也常用这个可视化方法,它是来辅助我们概率计算的。

大家看一下整个样本空间就是外面的这个矩形框,然后A事件的概率就这个蓝颜色的椭圆A事件的概率,同样B事件的概率是B的椭圆面积除以整个矩形框的面积,C的事件的概率是C的椭圆的面积除以整个矩形框的面积,A和B的联合概率就是它们交集的地方,这个图示化表达的话,可能是帮助大家理解起来方便一点。我们再来看看几个事件的概念,知道一下关于事件的几个概念,第一个叫对立事件,对立事件我们用A'表示,A'式是A的对立事件,它表达的意思就是要么发生A要么发生A',A和A'互为穷举事件,它们是叫对立事件,对立事件的话A与A'的概率加在一起是等于1的;然后再一个是互斥事件,两个事件只有一个会发生,这叫互斥事件,当然对立事件肯定是互斥事件,互斥事件不一定是对立事件,互斥事件,比如说你现在在上海,那你就不可能在北京了,两个是互斥的事件;再有就是相交事件,相交事件就两个事件有可能同时会发生的;然后再一个相关事件,有几个事件发生的概率互相是有影响的;然后再一个独立事件就是事件发生的概率互相是没有影响的。那么我们来回忆一下我们前面讲的公式,在给定A情况下面求C的概率,等于分子是A和C的联合概率,分母是A的单独概率,那么假设A和C是独立事件的话,那A和C,A发生的概率,求C发生的概率的话,A和C是独立事件的话,互相没有影响的,那也就是C发生的概率和A是没有任何关系的,所以C发生的概率还应该是C的单独概率,但是我们知道他们是有影响的,是有相关的或者相交的,正因为有影响,所以我们给定A情况下面求C的概率,它先是A和C的联合概率除以A的单独概率。

所以关于这些基本概念,大家应该还是去掌握一下,如果比较陌生的话大家应该去把相关的内容都补充一下,关于概率的话,有专门概率论的知识,内容还是比较多的。

image.gif举一个例子来加深的对贝叶斯定理的理解。我们给定的条件是医生知道脑膜炎,我们用M表示,会导致脖子僵硬,我们用S表示的概率是50%,用概率公式表达为P(S|M)=0.5,所以大家以后要习惯上把我们的文字表达里面的这些条件这些数据转换成概率的表达方式,然后病人中有脑膜炎的先验概率是1/50000,M表示脑膜炎,那么M的单独概率是1/5000,第三个条件是有颈部僵硬(S)的患者的先验概率是也有颈部僵硬1/20,也就是S的单独概率是1/20。我们要求如果一个病人他脖子僵硬,他可能是脑膜炎的概率是多少?

相关文章
|
7月前
|
机器学习/深度学习 算法 数据可视化
R语言K-Means(K-均值)聚类、朴素贝叶斯(Naive Bayes)模型分类可视化
R语言K-Means(K-均值)聚类、朴素贝叶斯(Naive Bayes)模型分类可视化
|
机器学习/深度学习 移动开发 资源调度
机器学习算法(二): 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类
机器学习算法(二): 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类
|
机器学习/深度学习 传感器 算法
分类预测 | MATLAB实现基于PSO-NN、SVM、KNN、DT的多特征数据分类预测,二分类及多分类
分类预测 | MATLAB实现基于PSO-NN、SVM、KNN、DT的多特征数据分类预测,二分类及多分类
|
数据挖掘 开发者 Python
分类预测:Bayes Classifier-1|学习笔记(二)
快速学习分类预测:Bayes Classifier-1
|
数据采集 机器学习/深度学习 人工智能
分类预测:Bayes Classifier -2|学习笔记
快速学习分类预测:Bayes Classifier -2
分类预测:Bayes Classifier -2|学习笔记
|
机器学习/深度学习 人工智能 数据可视化
分类预测:Bayes Classifier-1|学习笔记
快速学习分类预测:Bayes Classifier-1
分类预测:Bayes Classifier-1|学习笔记
|
机器学习/深度学习 算法
DL之DNN:基于sklearn自带california_housing加利福尼亚房价数据集利用GD神经网络梯度下降算法进行回归预测(数据较多时采用mini-batch方式训练会更快)
DL之DNN:基于sklearn自带california_housing加利福尼亚房价数据集利用GD神经网络梯度下降算法进行回归预测(数据较多时采用mini-batch方式训练会更快)
|
机器学习/深度学习 数据挖掘 算法框架/工具
Keras之DNN:基于Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN实现分类预测概率——DIY二分类数据集&预测新数据点
Keras之DNN:基于Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN实现分类预测概率——DIY二分类数据集&预测新数据点
Keras之DNN:基于Keras(sigmoid+binary_crossentropy+predict_proba)利用DNN实现分类预测概率——DIY二分类数据集&预测新数据点
|
机器学习/深度学习 数据挖掘 算法框架/工具
Keras之DNN::基于Keras(sigmoid+binary_crossentropy+predict_classes)利用DNN实现二分类——DIY二分类数据集&预测新数据点
Keras之DNN::基于Keras(sigmoid+binary_crossentropy+predict_classes)利用DNN实现二分类——DIY二分类数据集&预测新数据点
Keras之DNN::基于Keras(sigmoid+binary_crossentropy+predict_classes)利用DNN实现二分类——DIY二分类数据集&预测新数据点
|
机器学习/深度学习 算法 数据可视化
TF之LSTM:利用LSTM算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)(一)
TF之LSTM:利用LSTM算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)
TF之LSTM:利用LSTM算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)(一)