Scikit-learn(sklearn)是一个流行的机器学习库,提供了许多用于机器学习任务的工具和算法。下面是一个简单的基础教程,介绍如何使用 sklearn 进行常见的机器学习任务。
1. 安装和导入
首先,确保你已经安装了 sklearn 库。如果没有安装,可以通过 pip 进行安装:
pip install scikit-learn
然后在 Python 脚本或交互式环境中导入 sklearn:
import sklearn
2. 数据准备
在使用 sklearn 进行机器学习任务之前,通常需要加载和准备数据。sklearn 提供了一些内置的数据集,也可以使用 Pandas、NumPy 等库加载自定义数据集。
from sklearn.datasets import load_iris import pandas as pd
加载示例数据集(鸢尾花数据集)
iris = load_iris()
转换为 Pandas DataFrame 方便处理
X = pd.DataFrame(iris.data, columns=iris.feature_names) y = iris.target
3. 划分数据集
通常,我们会将数据集分为训练集和测试集,用于模型训练和评估。sklearn 提供了 train_test_split 函数来完成这个任务。
from sklearn.model_selection import train_test_split
划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
4. 选择模型和训练
在 sklearn 中,模型是通过创建一个模型对象,然后使用 fit 方法来训练该模型。
from sklearn.linear_model import LogisticRegression
创建模型对象
model = LogisticRegression(max_iter=200)
训练模型
model.fit(X_train, y_train)
5. 模型评估
使用测试集评估模型的性能,可以使用 predict 方法来进行预测,然后使用评估指标来评估预测的准确性。
from sklearn.metrics import accuracy_score
预测
y_pred = model.predict(X_test)
计算准确率
accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy:.2f}')
6. 其他常见任务
除了上述步骤外,sklearn 还支持许多其他常见的机器学习任务,如特征工程、交叉验证、超参数调优等。可以根据具体的需求和任务来选择适当的模块和函数进行使用。