乳腺肿瘤预测

简介: 本案例使用逻辑回归分类器对乳腺肿瘤进行良性/恶性预测,并对预测模型进行指标测算与评价。

案例:良/恶性乳腺肿瘤预测

1.1 简介

  本案例使用逻辑回归分类器对乳腺肿瘤进行良性/恶性预测,并对预测模型进行指标测算与评价。

  这里数据集采用乳腺癌数据集,原始的数据集下载地址为:https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data

  数据特征如下:

image-20220626181652113

1.2 代码

  将每个属性的特征量化为1~10的数值进行表示。首先,导入数据并显示前5条数据。

1.2.1 导入数据集

import pandas as pd
import numpy as np
column_names=['number','Cl_Thickness','Unif_cell_size','Unif_cell_shape','Marg_Adhesion','Sing_epith_cell_size','Bare_nuclei','Bland_chromation','Norm_nuclei','Mitoses','Class']
data=pd.read_csv('breast-cancer-wisconsin.data',names=column_names)
display(data.head())

image-20220626181859532

1.2.2 浏览数据的基本信息

data.info() 

image-20220626181934451

1.2.3 查看数据的基本统计信息

data.describe()

image-20220626182028370

1.2.4 统计数据属性中的缺失值

data.isnull().sum()

image-20220626182113277

  如果存在缺失数据,需要丢弃或填充。该数据集中并没有缺失值。这里我们采取删除缺失值的方法

data=data.replace(to_replace='?',value=np.nan)
data=data.dropna(how='any')
print(data.shape)

image-20220626182227889

1.2.5 将数据集划分为训练集和测试集

from sklearn.model_selection import train_test_split
# 划分训练集与测试集
X_train,X_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)
print('训练样本的数量和类别分布:\n',y_train.value_counts())

image-20220626182314419

1.2.6 标准化数据

  每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值主导。

from sklearn.preprocessing import StandardScaler
ss=StandardScaler()
X_train=ss.fit_transform(X_train)
X_test=ss.transform(X_test)
print(X_train.mean())

image-20220626182350969

1.2.7 分别用LogisticRegression与SGDClassifier构建分类器

from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
lr=LogisticRegression()
sgdc=SGDClassifier()
lr.fit(X_train,y_train)
lr_y_predict=lr.predict(X_test)
sgdc.fit(X_train,y_train)
sgdc_y_predict=sgdc.predict(X_test)

1.2.8 分析LR分类器性能

from sklearn.metrics import classification_report
print('Accuracy of LR Classifier:',lr.score(X_test,y_test))
print(classification_report(y_test,lr_y_predict,target_names=['Benign','Malignant']))

image-20220626183521182

1.2.9 SGD分类器性能分析

print('Accuracy of SGD Classifier:',sgdc.score(X_test,y_test))
print(classification_report(y_test,sgdc_y_predict,target_names=['Benign','Malignant']))
# print(classification_report(y_test,sgdc_y_predict))

image-20220626183546838

precision 精确率

recall 召回率

f1_score F1值

macro avg 宏观平均值

weighted avg 加权平均值

目录
相关文章
|
7月前
|
机器学习/深度学习 算法
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
|
7月前
|
存储 机器学习/深度学习 数据采集
基于LightGBM的肺癌分类模型:从预测到个体化治疗
基于LightGBM的肺癌分类模型:从预测到个体化治疗
296 1
|
7月前
|
机器学习/深度学习
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
|
机器学习/深度学习 存储 数据采集
使用深度神经网络对肿瘤图像进行分类
使用 Inception-v3 深度神经网络对可能不适合内存的多分辨率全玻片图像 (WSI) 进行分类。 用于肿瘤分类的深度学习方法依赖于数字病理学,其中整个组织切片被成像和数字化。生成的 WSI 具有高分辨率,大约为 200,000 x 100,000 像素。WSI 通常以多分辨率格式存储,以促进图像的高效显示、导航和处理。
166 0
|
数据采集 机器学习/深度学习 异构计算
|
机器学习/深度学习 传感器 算法
【SVM回归预测】基于日特征气象因素的支持向量机实现电力负荷预测附Matlab代码
【SVM回归预测】基于日特征气象因素的支持向量机实现电力负荷预测附Matlab代码
|
存储 算法 Perl
使用Logistic回归估计马疝病的死亡率
使用Logistic回归估计马疝病的死亡率
180 0
使用Logistic回归估计马疝病的死亡率
|
算法
基于朴素贝叶斯算法对肿瘤类别分类
基于朴素贝叶斯算法对肿瘤类别分类
200 0
基于朴素贝叶斯算法对肿瘤类别分类
|
机器学习/深度学习 传感器 算法
【预测模型-SVM预测】基于粒子群算法结合支持向量机SVM实现Covid-19风险预测附matlab代码
【预测模型-SVM预测】基于粒子群算法结合支持向量机SVM实现Covid-19风险预测附matlab代码
|
机器学习/深度学习 算法 计算机视觉
【回归预测】基于萤火虫算法优化模糊实现数据回归预测附matlab代码
【回归预测】基于萤火虫算法优化模糊实现数据回归预测附matlab代码
【回归预测】基于萤火虫算法优化模糊实现数据回归预测附matlab代码