逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|数据分享-1
https://developer.aliyun.com/article/1489369
删除重复行
# 查看有无重复行并删除重复行 sum(duplicated
comd_ata <- comdta\[!duplicated(), \]
查看离群点
#查看异常值 gplot(coedta)+geom_boxplot(ae(ftr(1),age))
ggplot(copd\_dta)+geom\_boxplot(aes(factor(1cigDy))
ggplot(coea)+geom_boxplot(aes(factor(1),ttl))
ggplot(colt\_ta)+geom\_boxplot(aes(factor(1),syBP))
ggplot(comeaa)+geom_boxplot(aes(factor(1),daP))
ggplot()+gem_boxplot(aes(factor(1),BMI))
# 查看cigsPerDay cigs\_sub <- comled\_dta # 查看totChol,删除异常点 # 查看sysBP, 删除异常点 # 查看BMI
totChol: 总胆固醇水平大于240mg/dl已属于非常高,故删去水平值为600mg/dl的记录。sysBP: 去掉收缩压为295mg/dl的记录
# 删除各变量离群点 competedata
# 分类型变量列联分析 ggplot+geom_boxplot
ggplot+geom_boxplot(aes,totChol,fill=TenYerCHD))
cometddata %>% fitr %>% ggplot
由图像知,glucose和hearRate变量有不显着的风险
table1=table chisq.test
table1
table2=table chisq.test
table3=table chisq.test
chisq.test
ggpairs
diaBP和sysBP有多重共线性的问题。
currentSmoker变量可能不显着,下面进入模型部分。
逻辑回归、随机森林、SVM支持向量机预测心脏病风险数据和模型诊断可视化|数据分享-3