使用PySpark构建和评估逻辑回归模型预测质量是否合格

简介: 使用PySpark构建和评估逻辑回归模型预测质量是否合格

使用PySpark构建和评估逻辑回归模型预测质量是否合格

随着数据量的不断增长,传统的数据处理工具已经难以满足需求。PySpark作为大数据处理框架Apache Spark的Python API,为大规模数据处理和机器学习提供了强有力的支持。本文将详细介绍如何使用PySpark进行机器学习模型的构建和评估。

1. 环境配置与数据导入

首先,我们需要进行必要的环境配置,并导入所需的库。

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession\
    .builder\
    .appName("model_train")\
    .master("local[*]")\
    .getOrCreate()

# 读取 CSV 文件
file_path = "data.csv"
df = spark.read.csv(file_path, header=True, inferSchema=True, encoding='gbk')
columns = ["TreeSpecies", "SampleID", "SamplingDate", "SamplingLocation", "SampledUnit", "SampledUnitAddress", "IsQualified", "InspectionType"]
df = df.toDF(*columns)

# 查看数据
df.show()
df.printSchema()

在上述代码中,我们创建了一个SparkSession并从CSV文件中加载数据。

2. 数据可视化

在进行机器学习模型训练前,数据预处理是一个关键步骤。我们需要对数据可视化分析,来明确接下来的操作。

import matplotlib.pyplot as plt
import seaborn as sns
source_df=df.toPandas()
# 设置 Seaborn 风格
sns.set(style="whitegrid")

plt.rcParams['font.family'] = 'Arial Unicode MS'

# 创建一个 2x2 的图表布局
fig, axs = plt.subplots(2, 2, figsize=(14, 10))

sns.histplot(source_df['TreeSpecies'], kde=True, ax=axs[0, 0], color='blue')
axs[0, 0].set_title('Tree Species Distribution')

sns.histplot(source_df['InspectionType'], kde=True, ax=axs[0, 1], color='green')
axs[0, 1].set_title('Inspection Type Distribution')

sns.histplot(source_df['SampleID'], kde=True, ax=axs[1, 0], color='red')
axs[1, 0].set_title('SampleID Distribution')

sns.histplot(source_df['IsQualified'], kde=True, ax=axs[1, 1], color='purple')
axs[1, 1].set_title('Is Qualified Distribution')

plt.tight_layout()

# 显示图表
plt.show()

3. 数据预处理

在进行机器学习模型训练前,数据预处理是一个关键步骤。我们需要对数据进行清洗和特征工程。

from pyspark.sql.functions import col, when
from pyspark.ml.feature import StringIndexer, OneHotEncoder, StandardScaler, VectorAssembler
from pyspark.ml import Pipeline
df = df.fillna({"IsQualified": "不合格"})

# 将目标列(IsQualified)转换为数值类型
indexer = StringIndexer(inputCol="IsQualified", outputCol="label")

# 对类别特征进行one-hot编码
string_columns = ["TreeSpecies", "SamplingLocation", "SampledUnit"]
indexers = [StringIndexer(inputCol=col, outputCol=col+"_index") for col in string_columns]
encoders = [OneHotEncoder(inputCol=col+"_index", outputCol=col+"_vec") for col in string_columns]

# 特征向量化
assembler = VectorAssembler(inputCols=[col+"_vec" for col in string_columns], outputCol="features")

# 标准化
scaler = StandardScaler(inputCol="features", outputCol="scaled_features")

# 构建处理管道
pipeline = Pipeline(stages=indexers + encoders + [assembler, scaler, indexer])
model = pipeline.fit(df)
processed_df = model.transform(df)

# 查看处理后的数据
processed_df.select("features", "scaled_features", "label").show()

3. 模型训练与评估

接下来,我们将数据集划分为训练集和测试集,并使用逻辑回归模型进行训练和评估。

from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.tuning import ParamGridBuilder, CrossValidator

# 划分训练集和测试集
train_df, test_df = processed_df.randomSplit([0.8, 0.2], seed=12345)

# 逻辑回归模型
lr = LogisticRegression(featuresCol="scaled_features", labelCol="label")

# 超参数调优
param_grid = ParamGridBuilder() \
    .addGrid(lr.regParam, [0.01, 0.1, 1.0]) \
    .addGrid(lr.elasticNetParam, [0.0, 0.5, 1.0]) \
    .build()

# 交叉验证
crossval = CrossValidator(estimator=lr,
                          estimatorParamMaps=param_grid,
                          evaluator=BinaryClassificationEvaluator(),
                          numFolds=5)

# 训练模型
cv_model = crossval.fit(train_df)

# 评估模型
predictions = cv_model.transform(test_df)
evaluator = BinaryClassificationEvaluator()
accuracy = evaluator.evaluate(predictions)
print(f"Test Accuracy: {accuracy:.4f}")

结论

本文介绍了如何使用PySpark进行数据预处理、模型训练和评估。PySpark作为一个强大的大数据处理工具,能够有效地处理大规模数据,并应用机器学习算法进行建模和分析。希望通过这篇文章,能够帮助你更好地理解和使用PySpark进行机器学习项目。

相关文章
|
1月前
|
机器学习/深度学习 测试技术
大模型开发:描述交叉验证以及为什么在模型评估中使用它。
【4月更文挑战第24天】交叉验证是评估机器学习模型性能的方法,通过将数据集分成训练集和多个子集(折叠)进行多次训练验证。它能减少过拟合风险,提供更可靠的性能估计,用于参数调优,并减少小数据集或噪声带来的随机性影响。通过汇总多轮验证结果,得到模型的整体性能估计。
35 7
|
5天前
|
机器学习/深度学习 算法
GBDT算法超参数评估(一)
GBDT(Gradient Boosting Decision Tree)是一种强大的机器学习技术,用于分类和回归任务。超参数调整对于发挥GBDT性能至关重要。其中,`n_estimators`是一个关键参数,它决定了模型中弱学习器(通常是决策树)的数量。增加`n_estimators`可以提高模型的复杂度,提升预测精度,但也可能导致过拟合,并增加训练时间和资源需求。
|
5天前
|
机器学习/深度学习 算法
GBDT算法超参数评估(二)
GBDT算法超参数评估关注决策树的不纯度指标,如基尼系数和信息熵,两者衡量数据纯度,影响树的生长。默认使用基尼系数,计算快速,而信息熵更敏感但计算慢。GBDT的弱评估器默认最大深度为3,限制了过拟合,不同于随机森林。由于Boosting的内在机制,过拟合控制更多依赖数据和参数如`max_features`。相比Bagging,Boosting通常不易过拟合。评估模型常用`cross_validate`和`KFold`交叉验证。
|
机器学习/深度学习 搜索推荐 测试技术
【王喆-推荐系统】评估篇-(task2)推荐模型评估指标
准确率 (Accuracy) 是指分类正确的样本占总样本个数的比例。
1111 0
【王喆-推荐系统】评估篇-(task2)推荐模型评估指标
|
1月前
|
机器学习/深度学习 监控 数据可视化
模型评估
“【5月更文挑战第27天】”
29 2
|
14天前
|
算法 计算机视觉
【YOLOv8训练结果评估】YOLOv8如何使用训练好的模型对验证集进行评估及评估参数详解
【YOLOv8训练结果评估】YOLOv8如何使用训练好的模型对验证集进行评估及评估参数详解
|
1月前
|
机器学习/深度学习 人工智能
【机器学习】有哪些指标,可以检查回归模型是否良好地拟合了数据?
【5月更文挑战第16天】【机器学习】有哪些指标,可以检查回归模型是否良好地拟合了数据?
|
1月前
|
机器学习/深度学习 Python
使用Python实现交叉验证与模型评估
使用Python实现交叉验证与模型评估
27 2
|
1月前
|
vr&ar Python
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
Python自激励阈值自回归(SETAR)、ARMA、BDS检验、预测分析太阳黑子时间序列数据
|
1月前
R语言对巨灾风险下的再保险合同定价研究案例:广义线性模型和帕累托分布Pareto distributions分析
R语言对巨灾风险下的再保险合同定价研究案例:广义线性模型和帕累托分布Pareto distributions分析