用Python实现简单机器学习模型:以鸢尾花数据集为例

简介: 用Python实现简单机器学习模型:以鸢尾花数据集为例

引言

在数据科学领域,机器学习无疑是最热门的话题之一。它允许我们从大量数据中提取有价值的洞察,并做出预测。Python,作为一门强大的编程语言,拥有众多用于机器学习的库,如Scikit-learn、TensorFlow和PyTorch等。本文将介绍如何使用Python和Scikit-learn库来实现一个简单的机器学习模型,并以经典的鸢尾花(Iris)数据集为例进行演示。

一、鸢尾花数据集简介

鸢尾花数据集是机器学习领域中最常用的数据集之一,包含了150个样本,每个样本有4个特征(花萼长度、花萼宽度、花瓣长度和花瓣宽度),以及一个目标变量(鸢尾花的种类,共有3种)。

二、环境准备

在开始编写代码之前,请确保你已经安装了Python和相关的库。你可以使用以下命令来安装Scikit-learn库:

pip install scikit-learn

三、代码实现

以下是一个简单的Python脚本,用于加载鸢尾花数据集,训练一个K近邻(K-Nearest Neighbors, KNN)分类器,并评估其性能。

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data  # 特征矩阵
y = iris.target  # 目标变量

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 初始化KNN分类器,并设置k值为3
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 使用测试集进行预测
y_pred = knn.predict(X_test)

# 计算并输出准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

四、代码解释

  1. 导入库:我们导入了Scikit-learn中的几个模块,包括用于加载数据集的load_iris,用于分割数据集的train_test_split,用于特征缩放的StandardScaler,以及用于KNN分类的KNeighborsClassifier和用于计算准确率的accuracy_score

  2. 加载数据集:使用load_iris函数加载鸢尾花数据集,并分别获取特征矩阵X和目标变量y

  3. 分割数据集:使用train_test_split函数将数据集分为训练集和测试集,测试集占总数据的20%,并设置随机种子以确保结果的可重复性。

  4. 特征缩放:使用StandardScaler对特征进行标准化处理,即将特征值缩放到均值为0,方差为1的范围内。这是KNN算法等基于距离的算法所必需的步骤。

  5. 初始化并训练模型:创建一个KNN分类器实例,并设置k值为3。然后,使用训练集数据对模型进行训练。

  6. 预测与评估:使用测试集数据进行预测,并计算模型的准确率。

五、结果分析

运行上述代码后,你将看到一个输出,显示模型的准确率。由于KNN算法是一个相对简单的算法,并且鸢尾花数据集是一个较小的数据集,因此你可能会得到一个相对较高的准确率。

六、总结

本文介绍了如何使用Python和Scikit-learn库来实现一个简单的机器学习模型。通过加载鸢尾花数据集,训练KNN分类器,并评估其性能,我们展示了从数据加载到模型评估的整个流程。希望这个示例能帮助你更好地理解机器学习在Python中的实现。

七、进一步探索

虽然本文只使用了KNN算法和鸢尾花数据集,但Scikit-learn库提供了许多其他算法和数据集。你可以尝试使用不同的算法(如决策树、支持向量机等)和数据集(如波士顿房价数据集、手写数字数据集等)来进一步探索机器学习的魅力。

目录
相关文章
|
9月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1434 109
|
10月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
月之暗面发布开源模型Kimi K2,采用MoE架构,参数达1T,激活参数32B,具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署,提供企业级方案。
593 0
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
11月前
|
机器学习/深度学习 算法 安全
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
本文探讨在敏感数据上应用差分隐私(DP)进行机器学习的挑战与实践。通过模拟DP-SGD算法,在模型训练中注入噪声以保护个人隐私。实验表明,该方法在保持71%准确率和0.79 AUC的同时,具备良好泛化能力,但也带来少数类预测精度下降的问题。研究强调差分隐私应作为模型设计的核心考量,而非事后补救,并提出在参数调优、扰动策略选择和隐私预算管理等方面的优化路径。
743 3
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
|
10月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型
阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型,提供企业级部署方案。
|
11月前
|
机器学习/深度学习 人工智能 算法
Post-Training on PAI (4):模型微调SFT、DPO、GRPO
阿里云人工智能平台 PAI 提供了完整的模型微调产品能力,支持 监督微调(SFT)、偏好对齐(DPO)、强化学习微调(GRPO) 等业界常用模型微调训练方式。根据客户需求及代码能力层级,分别提供了 PAI-Model Gallery 一键微调、PAI-DSW Notebook 编程微调、PAI-DLC 容器化任务微调的全套产品功能。
|
机器学习/深度学习 人工智能 算法
Scikit-learn:Python机器学习的瑞士军刀
想要快速入门机器学习但被复杂算法吓退?本文详解Scikit-learn如何让您无需深厚数学背景也能构建强大AI模型。从数据预处理到模型评估,从垃圾邮件过滤到信用风险评估,通过实用案例和直观图表,带您掌握这把Python机器学习的'瑞士军刀'。无论您是AI新手还是经验丰富的数据科学家,都能从中获取将理论转化为实际应用的关键技巧。了解Scikit-learn与大语言模型的最新集成方式,抢先掌握机器学习的未来发展方向!
1395 12
Scikit-learn:Python机器学习的瑞士军刀
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
610 6
|
存储 机器学习/深度学习 自然语言处理
避坑指南:PAI-DLC分布式训练BERT模型的3大性能优化策略
本文基于电商搜索场景下的BERT-Large模型训练优化实践,针对数据供给、通信效率与计算资源利用率三大瓶颈,提出异步IO流水线、梯度压缩+拓扑感知、算子融合+混合精度等策略。实测在128卡V100集群上训练速度提升3.2倍,GPU利用率提升至89.3%,训练成本降低70%。适用于大规模分布式深度学习任务的性能调优。
582 3

热门文章

最新文章

推荐镜像

更多