weka文本挖掘分析垃圾邮件分类模型

简介: weka文本挖掘分析垃圾邮件分类模型

业务背景


电子邮件的应用变的十分广泛,它给人们的生活带来了极大的方便,然而,作为其发展的副产品——垃圾邮件,却给广大用户、网络管理员和ISP(Internet服务提供者)带来了大量的麻烦。垃圾邮件问题日益严重,受到研究人员的广泛关注。垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的电子邮件。对于采用群发等技术的垃圾邮件,必须借助一定的技术手段进行反垃圾邮件工作。目前,反垃圾邮件技术主要包括:垃圾邮件过滤技术、邮件服务器的安全管理以及对简单邮件通信协议(SMTP)的改进研究等。


WEKA文本分词预处理


首先对于训练集文件夹中的两类邮件文档进行分析,可从不同角度自动化分析两类文件特征,编写算法,构建分类模型。

首先设置工作目录,并且读取分类后的文本文件

可以看到垃圾邮件和非垃圾邮件的频数直方图


然后对得到的原始语料进行分词处理 得到词频矩阵文件


得到各个词频的分类直方图


得到词频矩阵后 对数据进行分类器的建模

2. 对corpus中的attribute进行分析,找出对于分类有贡献的attribute(即那些词只出现在positive中,那些词只出现在negative中,哪些词在两个类别里都出现)






3. 找出区分positive和negative的分类规则(即哪些词在一起出现的时候会导致分类器判断的结果为positive,哪些词在一起出现的时候会导致分类器判断的结果为negative)



从结果可以看出cell efficiengcy however breast rates 和cell这些词对最后的分类结果有较大的影响 如有however的一般为负面词 。


WEKA文本分词结果比较


下面得到每个分类器的准确度和混淆矩阵:


NaiveBayes


Logistic


J48


RandomForest


SVM


OneR


结语

基于判别方法的垃圾邮件过滤在现代研究中引起比较少的关注 ,结果很清楚地表明,基于随机森林、SVM模型的分类方法相对于传统的方法,在垃圾邮件的过滤方面,可以有效地提高正确率和准确率。


相关文章
|
关系型数据库 MySQL
mysql报Toomanyconnection的问题
mysql报Toomanyconnection的问题
479 0
|
前端开发 JavaScript Java
一文了解主流开发语言都有哪些!
本文将综合探讨目前市场上最流行、最多人使用的几种主流开发语言,包括它们的特点、典型应用场景以及简单示例代码。
|
数据可视化 数据管理 API
详解空气质量查询API 使用
本文将介绍的 API 是用于查询中国境内3400多个城市的空气质量数据的接口。该API提供了指定城市的整点观测空气质量数据,包括空气质量指数、首要污染物、空气质量等级、6要素浓度等信息。这些数据可以用于制定健康计划、规划出行路线等。
804 0
|
API 语音技术 开发工具
FastASR+FFmpeg(音视频开发+语音识别)(二)
FastASR+FFmpeg(音视频开发+语音识别)(二)
671 0
|
API
最新!中国天气网api接口调用,key获取方式,数据请求秘钥获取,城市id获取方法
最新!中国天气网api接口调用,key获取方式,数据请求秘钥获取,城市id获取方法
6838 1
最新!中国天气网api接口调用,key获取方式,数据请求秘钥获取,城市id获取方法
|
运维 监控 算法
数据指标体系入门讲解(上)
数据指标体系入门讲解(上)
2430 2
|
12月前
|
SQL 数据挖掘 Serverless
手把手进行数据分析,解锁游戏行为画像
本文介绍了一套利用阿里云E-MapReduce StarRocks版进行游戏玩家画像和行为分析的完整流程,旨在帮助开发者构建高性能、低成本的游戏数据分析平台。
443 11
|
应用服务中间件
解决tomcat无法启动显示cannot touch
解决tomcat无法启动显示cannot touch
414 1
|
关系型数据库 MySQL 数据库
MySQL 什么是意向锁?为什么要有意向锁?
【8月更文挑战第24天】MySQL 什么是意向锁?为什么要有意向锁?
1476 0