python逻辑回归模型预测癌症

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: python逻辑回归模型预测癌症

数据准备

使用sklearn.datasets导入癌症数据load_breast_cancer

# 获取数据对象

data=load_breast_cancer()

获取目标变量与特征变量

1. # 导入数据
2. from sklearn.datasets import load_breast_cancer
3. # 获取数据对象
4. data=load_breast_cancer()
5. # 获取目标变量 
6. # 获取特征变量
7. x=data.data 
8. y=data.target
9. 
10. print(len(data.data)) 
11. # print(len(data.target))

数据处理

将导入的数据转化为DataFrame格式,便于后期的数据建模

1. import pandas as pd 
2. data_x=pd.DataFrame(x)
3. data_y=pd.DataFrame(y)
4. data_x
5. data_y

 

数据划分

将导入的数据划分为测试集与训练集两部分

并取80%的数据作为训练集,20%作为测试集

1. # 划分数据集
2. from sklearn.model_selection import train_test_split
3. X_train,X_test,y_train,y_test=train_test_split(data_x,data_y,test_size=0.2)
4. X_train

数据建模

接下来选取逻辑回归模型进行数据建模工作

1. # 模型构建
2. from sklearn.linear_model import LogisticRegression
3. model=LogisticRegression()
4. model.fit(X_train,y_train)
5. model

 

模型评估

使用R的平方(可决系数也称决定系数)来评估模型的好坏,可以看到有94%的结果预测成功的,使用该模型最大的好处就是利用决策树二分类的机制,对数据进行有效的分类,提高预测的准确度

1. y_pred=model.predict(X_test)
2. # 预测结果
3. y_pred
1. # 准确率
2. from sklearn.metrics import accuracy_score
3. score=accuracy_score(y_pred,y_test)
4. score

 

结果预测

讲实际值与预测值进行对比可以发现也存在部分数据预测错误的情况,但从数据的整体预测结果来看可以发现模型的评分是达到了94%的准确率。

1. y_te=[]
2. for i in y_test.values:
3.     y_te.append(i[0])
4. # y_te
5. result={
6. "预测值":list(y_pred),
7. "实际值":list(y_te)
8. }
9. 
10. result=pd.DataFrame(result)
11. result

 

通过该模型能够准确的对癌症的结果进行分类,并达到94% 的准确度。


相关文章
|
1天前
|
机器学习/深度学习 TensorFlow API
Python深度学习基于Tensorflow(3)Tensorflow 构建模型
Python深度学习基于Tensorflow(3)Tensorflow 构建模型
10 2
|
4天前
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
|
4天前
|
机器学习/深度学习 数据采集 数据可视化
数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM交叉验证可视化
数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM交叉验证可视化
|
10天前
|
机器学习/深度学习 数据采集 前端开发
【Python机器学习专栏】模型泛化能力与交叉验证
【4月更文挑战第30天】本文探讨了机器学习中模型泛化能力的重要性,它是衡量模型对未知数据预测能力的关键。过拟合和欠拟合影响泛化能力,而交叉验证是评估和提升泛化能力的有效工具。通过K折交叉验证等方法,可以发现并优化模型,如调整参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
|
10天前
|
机器学习/深度学习 数据可视化 前端开发
【Python机器学习专栏】机器学习模型评估的实用方法
【4月更文挑战第30天】本文介绍了机器学习模型评估的关键方法,包括评估指标(如准确率、精确率、召回率、F1分数、MSE、RMSE、MAE及ROC曲线)和交叉验证技术(如K折交叉验证、留一交叉验证、自助法)。混淆矩阵提供了一种可视化分类模型性能的方式,而Python的scikit-learn库则方便实现这些评估。选择适合的指标和验证方法能有效优化模型性能。
|
10天前
|
机器学习/深度学习 算法 前端开发
【Python机器学习专栏】机器学习中的模型融合技术
【4月更文挑战第30天】模型融合,即集成学习,通过结合多个模型提升预测性能。常见方法包括:Bagging(如Random Forest)、Boosting(如AdaBoost、XGBoost)和Stacking。Python中可使用`scikit-learn`实现,例如BaggingClassifier示例。模型融合是机器学习中的强大工具,能提高整体性能并适应复杂问题。
|
10天前
|
机器学习/深度学习 Python
【Python 机器学习专栏】模型选择中的交叉验证与网格搜索
【4月更文挑战第30天】交叉验证和网格搜索是机器学习中优化模型的关键技术。交叉验证通过划分数据集进行多次评估,如K折和留一法,确保模型性能的稳定性。网格搜索遍历预定义参数组合,寻找最佳参数设置。两者结合能全面评估模型并避免过拟合。Python中可使用`sklearn`库实现这一过程,但需注意计算成本、过拟合风险及数据适应性。理解并熟练应用这些方法能提升模型性能和泛化能力。
|
10天前
|
机器学习/深度学习 数据可视化 TensorFlow
【Python 机器学习专栏】使用 TensorFlow 构建深度学习模型
【4月更文挑战第30天】本文介绍了如何使用 TensorFlow 构建深度学习模型。TensorFlow 是谷歌的开源深度学习框架,具备强大计算能力和灵活编程接口。构建模型涉及数据准备、模型定义、选择损失函数和优化器、训练、评估及模型保存部署。文中以全连接神经网络为例,展示了从数据预处理到模型训练和评估的完整流程。此外,还提到了 TensorFlow 的自动微分、模型可视化和分布式训练等高级特性。通过本文,读者可掌握 TensorFlow 基本用法,为构建高效深度学习模型打下基础。
|
10天前
|
算法 数据挖掘 Python
Python贝叶斯MCMC:Metropolis-Hastings、Gibbs抽样、分层模型、收敛性评估
Python贝叶斯MCMC:Metropolis-Hastings、Gibbs抽样、分层模型、收敛性评估
|
10天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】逻辑回归在分类问题中的应用
【4月更文挑战第30天】逻辑回归是用于二分类的统计方法,通过Sigmoid函数将线性输出映射到[0,1],以预测概率。优点包括易于理解、不需要线性关系、鲁棒且能输出概率。缺点是假设观测独立、易过拟合及需大样本量。在Python中,可使用`sklearn`的`LogisticRegression`实现模型。尽管有局限,但在适用场景下,逻辑回归是强大且有价值的分类工具。

热门文章

最新文章