垃圾邮件过滤实例 | 学习笔记

简介: 快速学习垃圾邮件过滤实例

开发者学堂课程【人工智能必备基础:概率论与数理统计:垃圾邮件过滤实例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7416


垃圾邮件过滤实例

内容介绍

一、模型比较理论

二、垃圾邮件过滤实例

 

一、模型比较理论

1.最大似然:最符合观测数据的(即 P(D|h) 最大的)最有优势

2.奥卡姆剃刀: P(h) 较大的模型有较大的优势

3.掷一个硬币,观察到的是“正”,根据最大似然估计的精神,我们应该猜测这枚硬币掷出“正”的概率是 1,因为这个才是能最大化 P(D|h) 的那个猜测

4.如果平面上有 N 个点,近似构成一条直线,但绝不精确地位于一条直线上。这时我们既可以用直线来拟合(模型 1 ),也可以用二阶多项式(模型 2 )拟合,也可以用三阶多项式(模型 3 ),特别地,用 N-1 阶多项式便能够保证肯定能完美通过 N 个数据点。那么,这些可能的模型之中到底哪个是最靠谱的呢?

5.奥卡姆剃刀:越是高阶的多项式越是不常见

P(N-1)<<P(1)

 

二、垃圾邮件过滤实例

问题:给定一封邮件,判定它是否属于垃圾邮件

D 来表示这封邮件,注意 D 由 N 个单词组成。我们用 h+ 来表示垃圾邮件,h- 表示正常邮件

P(h+|D)=P(h+)*P(D|h+)/P(D)

P(h- |D)=P(h-)*P(D|h-)/P(D)

1.先验概率: P(h+) 和 P(h-) 这两个先验概率都是很容易求出来的,只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。

2.D 里面含有 N 个单词 d1,d2,d3,P(D|h+)=P(d1,d2,...,dn|h+)

P(d1,d2,...,dn|h+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大!

P(d1,d2,...,dn |h+) 扩展为: P(d1|h+)*P(d2|d1h+)*P(d3|d2d1h+)*....

3.P(d1|h+)* P(d2|d1,h+) * P(d3|d2,d1,h+)* ..

假设 di 与 di-1 是完全条件无关的(朴素贝叶斯假设特征之间是独立互不影响)

简化为 P(d1|h+)* P(d2|h+)* P(d3|h+)*..

4. 对于 P(d1|h+)*P(d2|h+)*P(d3|h+)*.. 只要统计 di 这个单词在垃圾邮件中出现的频率即可

相关文章
|
6月前
|
机器学习/深度学习 数据采集 开发者
基于机器学习的垃圾邮件过滤系统
基于机器学习的垃圾邮件过滤系统
99 0
|
6月前
|
机器学习/深度学习 算法 安全
论题:基于机器学习的垃圾邮件过滤系统
论题:基于机器学习的垃圾邮件过滤系统
207 0
|
9月前
|
数据采集 数据可视化 数据挖掘
如何筛选和过滤ARWU网站上的大学排名数据
ARWU网站(ShanghaiRanking's Academic Ranking of World Universities)是一个公认的全球大学排名的先驱和最值得信赖的大学排名之一。它每年发布世界前1000所研究型大学的排名,基于透明的方法论和客观的第三方数据。ARWU网站上的大学排名数据可以为高考考生、专业选择、就业指导、行业发展等提供有价值的参考信息。
如何筛选和过滤ARWU网站上的大学排名数据
|
自然语言处理 搜索推荐 算法
推荐系统:基于内容的过滤
此图像包含用户喜欢的电影的描述。根据用户喜欢的电影向用户推荐电影,需要使用这些描述得到一个数学形式,即文本应该是可测量的,然后通过与其他电影进行比较来找到相似的描述。 我们有各种电影和关于这些电影的数据。为了能够比较这些电影数据,需要对数据进行矢量化。在向量化这些描述时,必须创建所有电影描述(假设 n)和所有电影(假设 m)中的唯一词矩阵。列中有所有唯一的单词,行中有所有电影,每个单词在交叉点的电影中使用了多少。这样,文本就可以被矢量化。
216 0
|
机器学习/深度学习 自然语言处理 数据处理
使用朴素贝叶斯过滤垃圾邮件
使用朴素贝叶斯过滤垃圾邮件
184 0
使用朴素贝叶斯过滤垃圾邮件
|
数据采集 机器学习/深度学习 人工智能
基于逻辑回归方法完成垃圾邮件过滤任务
基于逻辑回归方法完成垃圾邮件过滤任务
139 0
基于逻辑回归方法完成垃圾邮件过滤任务
|
安全 JavaScript 前端开发
【知识】过滤漏洞上传姿势-客户端过滤-服务器端过滤-靶机挑战
漏洞上传是常见的web漏洞,但是我们上传文件总是会被过滤,那么,我们怎么才能绕过过滤呢?本文将为您细细道来。
107 0
|
SQL 消息中间件 RocketMQ
过滤消息的两种方式|学习笔记
快速学习过滤消息的两种方式
136 0
过滤消息的两种方式|学习笔记
wireshark过滤规则
wireshark是一款抓包软件,常用来分析网络底层协议,寻找网络安全问题,平时用的最多的是过滤功能,wireshark的过滤分功能有两种,抓包过滤器和显示过滤器
149 0
|
存储
基于布隆过滤器实现敏感词识别和过滤
在当前的网络环境下,敏感词过滤已经是各大网站的“标准配置”,如果不想被大量的垃圾信息充斥,除了使用机器人识别、验证码等验证工具,还需要阻止含有敏感词内容的发布,否则可能面临关站等风险,可谓是国内互联网的红线。
3739 0