ML之分类预测:以六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测的模板流程

简介: ML之分类预测:以六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测的模板流程


目录

六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类预测

数据集理解

1、kNN

2、逻辑回归

3、SVM

4、决策树

5、随机森林

6、提升树

7、神经网络


 

相关文章

ML之分类预测:以六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测

ML之分类预测:以六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测应用

 

六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类预测

数据集理解

1. data.shape:  (768, 9)
2. data.columns: 
3.  Index(['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
4. 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome'],
5.       dtype='object')
6. data.head: 
7.     Pregnancies  Glucose  BloodPressure  ...  DiabetesPedigreeFunction  Age  Outcome
8. 0            6      148             72  ...                     0.627   50        1
9. 1            1       85             66  ...                     0.351   31        0
10. 2            8      183             64  ...                     0.672   32        1
11. 3            1       89             66  ...                     0.167   21        0
12. 4            0      137             40  ...                     2.288   33        1
13. 
14. [5 rows x 9 columns]
15. <class 'pandas.core.frame.DataFrame'>
16. RangeIndex: 768 entries, 0 to 767
17. Data columns (total 9 columns):
18. #   Column                    Non-Null Count  Dtype  
19. ---  ------                    --------------  -----  
20. 0   Pregnancies               768 non-null    int64  
21. 1   Glucose                   768 non-null    int64  
22. 2   BloodPressure             768 non-null    int64  
23. 3   SkinThickness             768 non-null    int64  
24. 4   Insulin                   768 non-null    int64  
25. 5   BMI                       768 non-null    float64
26. 6   DiabetesPedigreeFunction  768 non-null    float64
27. 7   Age                       768 non-null    int64  
28. 8   Outcome                   768 non-null    int64  
29. dtypes: float64(2), int64(7)
30. memory usage: 54.1 KB
31. data.info: 
32. None
33. 8
34. data_column_X:  ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age'] 
35.  ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']

 

1、kNN

1. kNNC(n_neighbors=9):Training set accuracy: 0.792
2. kNNC(n_neighbors=9):Test set accuracy: 0.776

 

 

2、逻辑回归

1. LoR(c_regular=1):Training set accuracy: 0.785
2. LoR(c_regular=1):Test set accuracy: 0.771

 

 

 

3、SVM

1. SVMC_Init:Training set accuracy: 0.769
2. SVMC_Init:Test set accuracy: 0.755
3. SVMC_Best(max_dept=1,learning_rate=0.1):Training set accuracy: 0.788
4. SVMC_Best(max_dept=1,learning_rate=0.1):Test set accuracy: 0.781
5. DTC(max_dept=3):Training set accuracy: 0.773
6. DTC(max_dept=3):Test set accuracy: 0.740

 

4、决策树

1. DTC(max_dept=3):Training set accuracy: 0.773
2. DTC(max_dept=3):Test set accuracy: 0.740

 

5、随机森林

1. RFC_Best:Training set accuracy: 0.764
2. RFC_Best:Test set accuracy: 0.750

 

6、提升树

1. GBC(max_dept=1,learning_rate=0.1):Training set accuracy: 0.804
2. GBC(max_dept=1,learning_rate=0.1):Test set accuracy: 0.781

 

7、神经网络

1. MLPC_Init:Training set accuracy: 0.743
2. MLPC_Init:Test set accuracy: 0.672

 

相关文章
|
1月前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
53 14
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
274 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
3月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
77 1
|
3月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
193 6
|
3月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
3月前
|
机器学习/深度学习 算法
深入探索机器学习中的决策树算法
深入探索机器学习中的决策树算法
59 0
|
3月前
|
机器学习/深度学习 算法 Python
机器学习入门:理解并实现K-近邻算法
机器学习入门:理解并实现K-近邻算法
56 0
|
3月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
179 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
3月前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
4月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)

热门文章

最新文章