我最近阅读了一篇名为《使用自动编码器进行异常检测》的文章,在该文中对所生成的数据进行了实验,并且我认为将使用自动编码器进行异常检测这一想法应用于真实世界当中的欺诈检测中,似乎是一个不错的主意。
我决定从Kaggle中使用信用卡欺诈数据:该数据集包含有在2013年9月欧洲持卡人的信用卡交易信息。
这个数据集显示了两天内发生的交易,其中在284,807次交易中有492次为欺诈数据。这样的数据集是相当不平衡的,其中正类(欺诈)数据占所有交易数据的0.172%。
数据挖掘
这虽然是一个非常不平衡的数据集,但是它也是一个很好的例子:对异常或欺诈进行识别验证。
首先,我们需要通过主成分分析法将数据集维度由30维下降到3维,并画出其对应的点状图。其中,该数据集共有32列,第一列为时间,29列为未知的数据,1列为交易金额和剩下1列为类别。需要说明的是,我们将忽略时间这一指标,因为它不是一个较为固定的指标。
def show_pca_df(df): x = df[df.columns[1:30]].to_numpy() y = df[df.columns[30]].to_numpy() x = preprocessing.MinMaxScaler().fit_transform(x) pca = decomposition.PCA(n_components=3) pca_result = pca.fit_transform(x) print(pca.explained_variance_ratio_) pca_df = pd.DataFrame(data=pca_result, columns=['pc_1', 'pc_2', 'pc_3']) pca_df = pd.concat([pca_df, pd.DataFrame({'label': y})], axis=1) ax = Axes3D(plt.figure(figsize=(8, 8))) ax.scatter(xs=pca_df['pc_1'], ys=pca_df['pc_2'], zs=pca_df['pc_3'], c=pca_df['label'], s=25) ax.set_xlabel("pc_1") ax.set_ylabel("pc_2") ax.set_zlabel("pc_3") plt.show() df = pd.read_csv('creditcard.csv') show_pca_df(df)
观察上图,能直观地看见有两个单独的集群,这看似是一个非常简单的任务,但是其实欺诈数据仅为黄色的点。仔细看的话,在较大的那个集群中,我们能够看见有三个黄色的点。因此,在我们保留欺诈数据的同时对正常数据进行了再次抽样。
df_anomaly = df[df[df.columns[30]] > 0] df_normal = df[df[df.columns[30]] == 0].sample(n=df_anomaly.size, random_state=1, axis='index') df = pd.concat([ df_anomaly, df_normal]) show_pca_df(df)
有上图可见,正常数据较为集中,类似于一个圆盘状,而欺诈数据则较为分散。此时,我们将构建一个自动编码器,它具有3层编码器和2层解码器,具体如下: