实战案例|肿瘤预测模型~

简介: 大家好,我是志斌~今天来跟大家分享一下朴素贝叶斯模型的原理以及通过肿瘤预测模型来看如何用Python实现它。

01原理


朴素贝叶斯法是基于贝叶斯定理与特征条件独立加设的分类方法,它是机器学习中应用最为广泛的分类算法之一。


朴素贝叶斯方法虽然分类效果比贝叶斯算法低,但是简化了其在实际应用场景中的复杂性,相当于是贝叶斯算法的简化版。


它的算法核心为如下的贝叶斯公式:


96.png

其中P(X)为事件X发生的概率,P(Y)为事件Y发生的概率,P(X|Y)为在事件Y发生的概率下事件X发生的概率,P(Y|X)为在事件X发生的概率下事件Y发生的概率。


02搭建模型


对肿瘤性质的判断,传统方法为医生根据肿瘤的几十个指标进行判断,这种方法过于依赖医生个人经验且效率较低,而通过机器学习搭建好模型,则可以快速对肿瘤进行预判。


首先读取数据进行查看。


# 读取数据
import pandas as pd
df = pd.read_excel('肿瘤数据.xlsx')



97.png



开始设置特征变量和目标变量。


# 划分特征变量、目标变量
X = df.drop(columns='肿瘤性质')
Y = df['肿瘤性质']


对数据集进行划分,其中20%的数据为测试集,80%的数据为训练集。


from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test = train_test_split(X,Y,test_s



微信图片_20220617161539.png


98.png


现在对已经划分好的数据集进行训练。


#  搭建模型进行训练
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X_train,Y_train)


对模型用测试集进行测试


Y_pred = model.predict(X_test)


查看一下预测的准确度。


from sklearn.metrics import accuracy_score
score = accuracy_score(Y_pred,Y_test)


预测准确度为:


99.png


03模型评估


模型搭建好后,我们还需要对其进行评估,之前我们的文章介绍了ROC曲线和KS曲线两种对模型评估的方式,有兴趣的读者可以看看这篇文章实战案例|ROC曲线与KS曲线评估模型~


此次我们选取ROC曲线作为评估方法。


# 绘制ROC曲线
from sklearn.metrics import roc_curve
Y_pred_proba = model.predict_proba(X_test)
fpr,tpr,thres = roc_curve(Y_test,Y_pred_proba[:,1])
data = pd.DataFrame()
data['阈值'] = list(thres)
data['假警报率'] = list(fpr)
data['命中率'] = list(tpr)
data.head(10)
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.plot(fpr,tpr)
plt.title('ROC曲线')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.show()



100.png


志斌换了一种绘制方式,重新绘制ROC曲线。


# 绘制ROC曲线
from sklearn.metrics import roc_curve
Y_pred_proba = model.predict_proba(X_test)
fpr,tpr,thres = roc_curve(Y_test,Y_pred_proba[:,1])
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.plot(fpr,tpr)
plt.title('ROC曲线')
plt.xlabel('FPR')
plt.ylabel('TPR')
plt.show()



101.png


计算ROC曲线的AUC值为0.988,看来模型很不错。


# 计算AUC值
from sklearn.metrics import roc_auc_score
score = roc_auc_score(Y_test,Y_pred_proba[:,1])


计算各个变量的影响程度,看看那个特征变量对模型的影响程度更高。


# 计算AUC值
features = X.columns
importances = model.feature_importances_
a = pd.DataFrame()
a['名称'] = features
a['重要性'] = importances
a.sort_values('重要性')



102.png


我们发现最大半径对模型的影响程度最高。


04小结


  1. 本文介绍了朴素贝叶斯方法的原理,并用肿瘤预测模型教大家如何搭建使用该模型。
  2. 本文仅供学习,不做它用。
相关文章
|
10月前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
287 70
|
SQL 索引 Python
Pandas中DataFrame合并的几种方法
Pandas中DataFrame合并的几种方法
1761 0
|
11月前
|
JavaScript 前端开发 安全
2024年前端开发新趋势:TypeScript、Deno与性能优化
2024年前端开发迎来新趋势:TypeScript 5.0引入装饰器正式支持、const类型参数及枚举改进;Deno 1.42版推出JSR包注册表、增强Node.js兼容性并优化性能;性能优化策略涵盖代码分割、懒加载及现代构建工具的应用。这些变化推动前端开发向更高效率和安全性发展。
QT+OpenGL 摄像机
OpenGL本身没有摄像机的定义,但是我们可以通过把场景中的所有物体往相反方向移动的方式来模拟出摄像机,产生一种我们在移动的感觉。
363 0
Unity精华☀️点乘、叉乘终极教程:用《小小梦魇》讲解这个面试题~
Unity精华☀️点乘、叉乘终极教程:用《小小梦魇》讲解这个面试题~
|
Linux
深入理解Linux虚拟内存管理(七)(中)
深入理解Linux虚拟内存管理(七)
195 2
|
机器学习/深度学习 算法 大数据
【机器学习】朴素贝叶斯算法及其应用探索
在机器学习的广阔领域中,朴素贝叶斯分类器以其实现简单、计算高效和解释性强等特点,成为了一颗璀璨的明星。尽管名字中带有“朴素”二字,它在文本分类、垃圾邮件过滤、情感分析等多个领域展现出了不凡的效果。本文将深入浅出地介绍朴素贝叶斯的基本原理、数学推导、优缺点以及实际应用案例,旨在为读者构建一个全面而深刻的理解框架。
480 1
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
【机器学习】贝叶斯算法在机器学习中的应用与实例分析
1079 1
|
机器学习/深度学习 人工智能 算法
【机器学习】概率模型在机器学习中的应用:以朴素贝叶斯分类去为例
【机器学习】概率模型在机器学习中的应用:以朴素贝叶斯分类去为例
317 0
|
Python
【Python】不小心卸载pip后(手动安装pip的两种方式)
【Python】不小心卸载pip后(手动安装pip的两种方式)
1352 0