Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Python基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

随着互联网的发展,越来越多的用户通过互联网来交流,电子邮件成为人们日常生活交流的重要工具。用户每星期可能收到成百上千的电子邮件,但是大部分是垃圾邮件。据时代杂志估计,1994年人们发送了7760亿封电子邮件,1997年则是26000亿封,2000年更是达到了66000亿封。电子邮件特别是垃圾邮件的泛滥已经严重影响电子商务活动的正常开展。人们通常要花费很多时间对电子邮件进行处理,但效果却不明显,严重影响了正常的商务活动。对邮件进行合理的分类,为用户挑选出有意义的电子邮件是所有用户的迫切要求。

目前的邮件分类方法大多是将邮件分为垃圾邮件与非垃圾邮件,从而实现对邮件的自动过滤。本项目基于词袋模型特征和TFIDF特征进行支持向量机模型中文邮件分类,邮件类别分为正常邮件和垃圾邮件。

2.数据采集

本次建模数据来源于网络,数据项统计如下:

image.png

数据详情如下(部分展示):

正常邮件:

image.png

垃圾邮件:

image.png

每一行代表一封邮件。

3.数据预处理

3.1查看数据

关键代码

print("总的数据量:", len(labels))

corpus, labels = remove_empty_docs(corpus, labels)  # 移除空行

print('样本之一:', corpus[10])
print('样本的label:', labels[10])
label_name_map = ["垃圾邮件", "正常邮件"]
print('实际类型:', label_name_map[int(labels[10])])

 

结果如图所示:

image.png

4.特征工程

4.1数据集拆分

关键代码

train_corpus, test_corpus, train_labels, test_labels = prepare_datasets(corpus, labels, test_data_proportion=0.3)

把数据集分为70%训练集和30%测试集。

4.2加载停用词

关键代码

with open("stop_words.utf8", encoding="utf8") as f:
    stopword_list = f.readlines()

停用词列表如下,部分展示:

image.png

4.3分词

关键代码

import jieba
tokens = jieba.lcut(text)
tokens = [token.strip() for token in tokens]

结果如图所示:

训练集分词展示:

image.png

测试集分词展示:

image.png

4.4移除特殊字符

关键代码

pattern = re.compile('[{}]'.format(re.escape(string.punctuation)))  # re.escape就能自动处理所有的特殊符号
# string.punctuation返回所有标点符号
filtered_tokens = filter(None, [pattern.sub('', token) for token in tokens])
filtered_text = ' '.join(filtered_tokens)

 

4.5去停用词

关键代码

filtered_tokens = [token for token in tokens if token not in stopword_list]
filtered_text = ''.join(filtered_tokens)

 

4.6归整化

关键代码

for text in corpus:

    text = remove_special_characters(text)  # 出去特殊符号
    text = remove_stopwords(text)  # 去除停用词
    normalized_corpus.append(text)

结果如图所示:

归整化后的训练集:

image.png

归整化后的测试集:

image.png

4.7词袋模型特征提取

关键代码

# min_df:在构建词汇表时,忽略那些文档频率严格低于给定阈值的术语。
# ngram_range(1,1)表示仅使用单字符
vectorizer = CountVectorizer(min_df=1, ngram_range=ngram_range)
features = vectorizer.fit_transform(corpus)  # 学习词汇表字典并返回文档术语矩阵

结果如图所示:

image.png

4.8 TFIDF特征提取

关键代码

vectorizer = TfidfVectorizer(min_df=1,  # 在构建词汇表时,忽略那些文档频率严格低于给定阈值的术语
                             norm='l2',  # 每个输出行都有单位范数,可以是:* ' l2 ':向量元素的平方和为1。当应用l2范数时,两个向量之间的余弦相似度是它们的点积
                             smooth_idf=True,  # 通过在文档频率上增加1来平滑idf权重,就好像在一个额外的文档中只包含集合中的每一个词一样。防止零分歧。
                             ngram_range=ngram_range)  # ngram_range(1,1)表示仅使用单字符
features = vectorizer.fit_transform(corpus)  # 学习词汇表和idf,返回文档术语矩阵。

结果如图所示:

image.png

5.构建支持向量机分类模型

5.1基于词袋模型特征的支持向量机

关键代码

# 基于词袋模型的支持向量机方法
print("基于词袋模型的支持向量机")
svm_bow_predictions = train_predict_evaluate_model(classifier=svm,
                                                   train_features=bow_train_features,
                                                   train_labels=train_labels,
                                                   test_features=bow_test_features,
                                                   test_labels=test_labels)

5.2基于TFIDF特征的支持向量机

关键代码

# 基于tfidf的支持向量机模型
print("基于tfidf的支持向量机模型")
svm_tfidf_predictions = train_predict_evaluate_model(classifier=svm,
                                                     train_features=tfidf_train_features,
                                                     train_labels=train_labels,
                                                     test_features=tfidf_test_features,
                                                     test_labels=test_labels)

 

6.模型评估

6.1评估指标及结果

评估指标主要包括准确率、查准率、查全率(召回率)、F1分值等等。  

关键代码

print('准确率:', np.round(metrics.accuracy_score(true_labels, predicted_labels), 2))
print('查准率:', np.round(metrics.precision_score(true_labels, predicted_labels, average='weighted'), 2))
print('召回率:', np.round(metrics.recall_score(true_labels, predicted_labels, average='weighted'), 2))
print('F1得分:', np.round(metrics.f1_score(true_labels, predicted_labels, average='weighted'), 2))

 

模型名称

指标名称

指标值

测试集

基于词袋模型特征的支持向量机模型

准确率

0.97

查准率

0.97

查全率

0.97

F1分值

0.97

 

模型名称

指标名称

指标值

测试集

基于TFIDF特征的支持向量机模型

准确率

0.97

查准率

0.97

查全率

0.97

F1分值

0.97

通过上表可以看到,两种特征提取的模型的准确率均为97%,F1分值均为0.97,说明模型效果良好。

6.2分类报告

关键代码

# 分类报告
print(classification_report(true_labels, predicted_labels))

结果如图所示:

基于词袋模型特征的分类报告

image.png

类型为垃圾邮件的F1分值为0.97;类型为正常邮件的F1分值为0.97

基于TFIDF特征的分类报告

image.png

类型为垃圾邮件的F1分值为0.97;类型为正常邮件的F1分值为0.97

6.3混淆矩阵

关键代码

# 构建数据框
cm_matrix = pd.DataFrame(data=cm, columns=['Actual :0', 'Actual :1'],
                         index=['Predict :0', 'Predict :1'])

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')  # 热力图展示
plt.show()  # 展示图片

结果如图所示:

基于词袋模型特征的分类报告

image.png

从上图可以看到,预测为垃圾邮件 实际为正常邮件的有91封;预测为正常邮件  实际为垃圾邮件的有5封。

基于TFIDF特征的分类报告

image.png

从上图可以看到,预测为垃圾邮件 实际为正常邮件的有89封;预测为正常邮件  实际为垃圾邮件的有6封。

7.模型预测展示

显示正确分类的邮件:

image.png

显示错误分类的邮件:

image.png

8.总结展望

本项目应用两种特征提取方法进行支持向量机模型中文邮件分类研究,通过数据预处理、特征工程、模型构建、模型评估等工作,最终模型的F1分值达到0.97,这在文本分类领域,是非常棒的效果,可以应用于实际工作中。

# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1KbSmPLG_QFsnSE-LU8cGUA 
提取码:v8fq
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
29天前
|
Python
Python办公自动化:xlwings对Excel进行分类汇总
Python办公自动化:xlwings对Excel进行分类汇总
47 1
|
2月前
|
前端开发 JavaScript Java
【实操】SpringBoot监听Iphone15邮件提醒,Selenium+Python自动化抢购脚本
本文介绍了一个结合SpringBoot和Python的实用功能,旨在监控iPhone 15的库存状态并通过邮件提醒用户。系统采用SpringBoot监听苹果官网API,解析JSON数据判断是否有货,并展示最近的库存记录。此外,还能自动触发Selenium+Python脚本实现自动化购买。文中详细介绍了技术栈、接口分析、邮件配置及自动化脚本的设置方法。该项目不仅适用于熟悉后端开发的人员,也适合回顾Layui和Jquery等前端技术。
48 0
【实操】SpringBoot监听Iphone15邮件提醒,Selenium+Python自动化抢购脚本
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
【python】python当当数据分析可视化聚类支持向量机预测(源码+数据集+论文)【独一无二】
|
1月前
|
机器学习/深度学习 算法 数据可视化
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
特征工程是机器学习流程中的关键步骤,通过将原始数据转换为更具意义的特征,增强模型对数据关系的理解能力。本文重点介绍处理数值变量的高级特征工程技术,包括归一化、多项式特征、FunctionTransformer、KBinsDiscretizer、对数变换、PowerTransformer、QuantileTransformer和PCA,旨在提升模型性能。这些技术能够揭示数据中的潜在模式、优化变量表示,并应对数据分布和内在特性带来的挑战,从而提高模型的稳健性和泛化能力。每种技术都有其独特优势,适用于不同类型的数据和问题。通过实验和验证选择最适合的变换方法至关重要。
37 5
8种数值变量的特征工程技术:利用Sklearn、Numpy和Python将数值转化为预测模型的有效特征
|
1月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
70 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
13天前
|
机器学习/深度学习 数据格式 Python
将特征向量转化为Python代码
将特征向量转化为Python代码
18 3
|
14天前
|
机器学习/深度学习 数据格式 Python
将特征向量转化为Python代码
将特征向量转化为Python代码
15 3
|
23天前
|
安全 Python
Python脚本实现IP按段分类
【10月更文挑战第04天】
23 7
|
18天前
|
存储 Python 容器
Python 对象有哪几种,我们可以从哪些角度进行分类呢?
Python 对象有哪几种,我们可以从哪些角度进行分类呢?
13 1
|
26天前
|
机器学习/深度学习 数据格式 Python
将特征向量转化为Python代码
将特征向量转化为Python代码
26 1