基于机器学习的地震预测（Earthquake Prediction with Machine Learning）（下）-阿里云开发者社区

基于机器学习的地震预测（Earthquake Prediction with Machine Learning）（下）

2024-10-21 5

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于机器学习的地震预测（Earthquake Prediction with Machine Learning）

基于机器学习的地震预测（Earthquake Prediction with Machine Learning）（上）+https://developer.aliyun.com/article/1627368

8. 前面我们已经看到数据集中的一些属性包含某些空值。由于空值不多，因此可以使用dropna()函数从数据集中删除这些值。

data.dropna(inplace=True)
data.info()

输出:

使用dropna()函数删除空值，在下一行中，使用info()函数获取有关数据集的一些基本信息。

9. 在下一步中，我们将对数据进行预处理。在此步骤中，将更改某些属性的数据类型。代码中将属性cdi、mmi、sig从int64类型转换为int8类型，将属性depth从float64类型转换为int16类型。属性警报也从类型对象转换为类别。这些转换主要是为了内存优化。转换数据类型的其他原因是，使用整数而不是浮点数以更好的方式表示数据。

data = data.astype({'cdi': 'int8', 'mmi': 'int8', 'sig': 'int8', 'depth': 'int16', 'alert': 'category'})
data.info()

输出:一旦转换了属性的数据类型，就可以使用info()函数来显示属性关于属性及其数据类型的信息。

10. 现在，让我们检查目标(警报)列中出现的各种值的计数。我们可以使用条形图来实现这个目的。

data[target].value_counts().plot(kind='bar', title='Count (target)', color=['green', 'yellow', 'orange', 'red']);

输出:输出图像是一个条形图，显示alert属性中所有值的计数。的值是绿色，黄色，橙色，红色。大多数值是绿色的，其次是黄色、橙色和红色。

11. 在前面的步骤中，可以看到alert属性中最常出现的值是绿色的价值。这表明alert属性是不平衡的，即alert属性中的值没有相同的出现次数。为了克服alert属性不平衡的问题，我们可以执行over-sampling过采样也有助于模型表现良好，因为它消除了被偏向于出现次数最高的值的可能性。

X = data[features]
y = data[target]
X = X.loc[:,~X.columns.duplicated()]
sm = SMOTE(random_state=42)
X_res, y_res= sm.fit_resample(X, y,)
y_res.value_counts().plot(kind='bar', title='Count (target)', color=['green', 'orange', 'red', 'yellow']);

在前两行中，变量X被初始化为名为data的数据框。这是一个功能列表先前指定的属性。变量y是用数据框架的目标(警报)列初始化的。在下一行中，代码从X值中删除所有重复的列。只有那些列不会重复，并将存储在X中。完成此操作后，我们将创建SMOTE算法的一个新实例。SMOTE代表合成少数过采样技术。这是一种常用的解决问题的技术机器学习中的类不平衡。创建SMOTE算法的实例后，可以使用该实例应用SMOTE算法对变量X和y进行重采样，应用SMOTE算法得到的值为分别存储在x_res和y_res变量中。完成后，我们可以使用条形图绘制y_res变量中的值。

输出:从柱状图中可以明显看出，y_res变量中存在的所有值具有相同数量的出现了。

12. 接下来，我们可以使用train_test_split()将数据分割为训练数据和测试数据函数。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_res, y_res, test_size=0.2, random_state=42)

注意，在上面的代码中，我们使用变量X_res和y_res作为独立变量和因变量分别为。我们使用X_res和y_res，因为它没有问题alert属性不平衡。原始数据帧在告警中面临着不平衡的问题属性。

在我们开始在数据集上实现模型之前，我们必须使数据符合标准这将最终帮助机器学习模型以更好的方式理解数据。这可以使用StandardScaler()函数来完成。

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

我们可以绘制出数据集中存在的各种值之间的相关性。相关矩阵表示数据集中存在的各种变量之间的关系，以及每个变量如何受到其他变量的影响。也可以使用下面的代码绘制它。

plt.figure(figsize = (10,6))
sns.heatmap(data.corr(), annot=True, fmt=".2f")
plt.plot()

输出:

相关矩阵表示数据集中存在的各种值之间的相关系数。

15. 下一步，我们可以在训练数据集上训练各种机器学习模型这些模型的性能可以使用测试数据集进行评估。

models = []
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state=42)
dt.fit(X_train, y_train)

可以使用predict()方法对模型进行预测。模型的性能可以使用指标accuracy_score、classification_report、confusion_matrix。

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
dt_pred = dt.predict(X_test)
print(accuracy_score(dt_pred,y_test)*100)
print(classification_report(dt_pred, y_test))
sns.heatmap(confusion_matrix(dt_pred, y_test), annot = True)
plt.plot()

输出:出现在混淆矩阵对角线上的值(54,64,60,51)表示被模型正确分类的数据点的数量。从准确性来看得分，显然决策树分类器的准确率为88.07%。

16. 我们要实现的下一个模型是KNN。

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

该模型的预测方式与之前的预测方式相似

knn_pred = knn.predict(X_test)
print(accuracy_score(knn_pred, y_test)*100)
print(classification_report(knn_pred, y_test))
sns.heatmap(confusion_matrix(knn_pred, y_test), annot = True)
plt.plot()

输出:

混淆矩阵和准确度分数可以像前面一样显示。从输出可以明显看出KNN的准确率为89.23%。

17. 在使用KNN算法之后，我们可以在数据集上使用随机森林分类器。

from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train, y_train)

来自随机森林分类器的预测可以使用predict()方法进行。混淆矩阵和准确性评分可以像前面一样显示。

rf_pred = rf.predict(X_test)
print(accuracy_score(rf_pred, y_test)*100)
print(classification_report(rf_pred, y_test))
sns.heatmap(confusion_matrix(rf_pred, y_test), annot = True)
plt.plot()

输出:可以看出随机森林分类器的准确率为91.15%。

18. 我们将实现的最后一个模型是梯度增强分类器。

from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(random_state=42)
gb.fit(X_train, y_train)

混淆矩阵和精度可以像前面那样显示。

gb_pred = gb.predict(X_test)
print(accuracy_score(gb_pred, y_test)*100)
print(classification_report(gb_pred, y_test))
sns.heatmap(confusion_matrix(gb_pred, y_test), annot = True)
plt.plot()