R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病-1

简介: R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

原文链接:http://tecdat.cn/?p=23061

数据集信息:

这个数据集可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病。

目标:

主要目的是预测给定的人是否有心脏病,借助于几个因素,如年龄、胆固醇水平、胸痛类型等。

我们在这个问题上使用的算法是:

  • 二元逻辑回归
  • Naive Bayes算法
  • 决策树
  • 随机森林

数据集的描述:

该数据有303个观察值和14个变量。每个观察值都包含关于个人的以下信息。

  • 年龄:- 个人的年龄,以年为单位
  • sex:- 性别(1=男性;0=女性)
  • cp - 胸痛类型(1=典型心绞痛;2=非典型心绞痛;3=非心绞痛;4=无症状)。
  • trestbps--静息血压
  • chol - 血清胆固醇,单位:mg/dl
  • fbs - 空腹血糖水平>120 mg/dl(1=真;0=假)
  • restecg - 静息心电图结果(0=正常;1=有ST-T;2=肥大)
  • thalach - 达到的最大心率
  • exang - 运动诱发的心绞痛(1=是;0=否)
  • oldpeak - 相对于静止状态,运动诱发的ST压低
  • slope - 运动时ST段峰值的斜率(1=上斜;2=平坦;3=下斜)
  • ca - 主要血管的数量(0-4),由Flourosopy着色
  • 地中海贫血症--地中海贫血症是一种遗传性血液疾病,会影响身体产生血红蛋白和红细胞的能力。1=正常;2=固定缺陷;3=可逆转缺陷
  • 目标--预测属性--心脏疾病的诊断(血管造影疾病状态)(值0=<50%直径狭窄;值1=>50%直径狭窄)

在Rstudio中加载数据

heart<-read.csv("heart.csv",header = T)

header = T意味着给定的数据有自己的标题,或者换句话说,第一个观测值也被考虑用于预测。

head(heart)

image.png

当我们想查看和检查数据的前六个观察点时,我们使用head函数。

tail(heart)

image.png

显示的是我们数据中最后面的六个观察点

colSums(is.na(heart))

image.png

这个函数是用来检查我们的数据是否包含任何NA值。

如果没有发现NA,我们就可以继续前进,否则我们就必须在之前删除NA。

检查我们的数据结构

str(heart)

image.png

查看我们的数据摘要

summary(heart)

image.png

通过观察以上的总结,我们可以说以下几点

  • 性别不是连续变量,因为根据我们的描述,它可以是男性或女性。因此,我们必须将性别这个变量名称从整数转换为因子。
  • cp不能成为连续变量,因为它是胸痛的类型。由于它是胸痛的类型,我们必须将变量cp转换为因子。
  • fbs不能是连续变量或整数,因为它显示血糖水平是否低于120mg/dl。
  • restecg是因子,因为它是心电图结果的类型。它不能是整数。所以,我们要把它转换为因子和标签。
  • 根据数据集的描述,exang应该是因子。心绞痛发生或不发生。因此,将该变量转换为因子。
  • 斜率不能是整数,因为它是在心电图中观察到的斜率类型。因此,我们将变量转换为因子。
  • 根据数据集的描述,ca不是整数。因此,我们要将该变量转换为因子。
  • thal不是整数,因为它是地中海贫血的类型。因此,我们将变量转换为因子。
  • 目标是预测变量,告诉我们这个人是否有心脏病。因此,我们将该变量转换为因子,并为其贴上标签。

根据上述考虑,我们对变量做了一些变化

#例如
sex<-as.factor(sex)
levels(sex)<-c("Female","Male")

检查上述变化是否执行成功

str(heart)

image.png

summary(heart)

image.png

EDA

EDA是探索性数据分析(Exploratory Data Analysis)的缩写,它是一种数据分析的方法/哲学,采用各种技术(主要是图形技术)来深入了解数据集。

对于图形表示,我们需要库 "ggplot2"

library(ggplot2)
ggplot(heart,aes(x=age,fill=target,color=target)) + geom_histogram(binwidth = 1,color="black") + labs(x = "Age",y = "Frequency", title = "Heart Disease w.r.t. Age")

image.png

我们可以得出结论,与60岁以上的人相比,40至60岁的人患心脏病的概率最高。

table <- table(cp)
pie(table)

image.png

我们可以得出结论,在所有类型的胸痛中,在个人身上观察到的大多数是典型的胸痛类型,然后是非心绞痛。


R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病-2

https://developer.aliyun.com/article/1489349

相关文章
|
5月前
|
机器学习/深度学习 数据采集 算法
Python实现Naive Bayes贝叶斯分类模型(GaussianNB、MultinomialNB算法)项目实战
Python实现Naive Bayes贝叶斯分类模型(GaussianNB、MultinomialNB算法)项目实战
125 1
|
7月前
|
机器学习/深度学习 存储 算法
用kNN算法诊断乳腺癌--基于R语言
用kNN算法诊断乳腺癌--基于R语言
|
5月前
|
机器学习/深度学习 人工智能 算法
算法金 | 这绝对是不一样的,独一无二的逻辑回归算法体验
算法导师“算法金”分享了更新的AI课件,邀请读者找错并提建议,采纳者可免费参与其付费专栏内测并获赠两份成品。文中提供了多张相关图片,但未直接展示具体内容。读者可通过链接参与互动,助力完善内容。
30 3
算法金 | 这绝对是不一样的,独一无二的逻辑回归算法体验
|
5月前
|
机器学习/深度学习 数据采集 人工智能
|
7月前
|
机器学习/深度学习 算法
【机器学习】比较朴素贝叶斯算法与逻辑回归算法
【5月更文挑战第10天】【机器学习】比较朴素贝叶斯算法与逻辑回归算法
|
7月前
|
算法 项目管理
R语言实现蒙特卡洛模拟算法
R语言实现蒙特卡洛模拟算法
|
7月前
|
机器学习/深度学习 数据可视化 算法
R语言神经网络与决策树的银行顾客信用评估模型对比可视化研究
R语言神经网络与决策树的银行顾客信用评估模型对比可视化研究
|
7月前
|
机器学习/深度学习 算法 数据库
数据分享|R语言用核Fisher判别方法、支持向量机、决策树与随机森林研究客户流失情况
数据分享|R语言用核Fisher判别方法、支持向量机、决策树与随机森林研究客户流失情况
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究
R语言SVM、决策树与因子分析对城市空气质量分类与影响因素可视化研究
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。