import required packages
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets,decomposition
处理数据得到标准化后的X和y
fp=open('seeds_dataset.txt','r') ls=[] for line in fp: line=line.strip('\n') #将\n去掉 ls.append(line.split('\t')) #将空格作为分隔符将一个字符切割成一个字符数组 fp.close() ls=numpy.array(ls,dtype=float) #将其转换成numpy的数组,并定义数据类型为float print(ls)
# 将文件转为DataFrame表格 ls_pd = pd.DataFrame(ls) from sklearn.preprocessing import StandardScaler sc = StandardScaler() data_std = sc.fit_transform(ls_pd.loc[:,1:6])
plot_PCA函数
def plot_KPCA(*data): # ''' 绘制经过 KernelPCA 降维到二维之后的样本点''' X,y=data kernels=['linear','poly','rbf','sigmoid'] fig=plt.figure(figsize = (10,10)) colors=((1,0,0),(0,1,0),(0,0,1),(0.5,0.5,0),(0,0.5,0.5),(0.5,0,0.5), (0.4,0.6,0),(0.6,0.4,0),(0,0.6,0.4),(0.5,0.3,0.2),)# 颜色集合,不同标记的样本染不同的颜色 for i,kernel in enumerate(kernels): # 外层循环是对于kernel的循环 外层第一次循环,某一种kernel的三种类别被画出来了 kpca=decomposition.KernelPCA(n_components=2,kernel=kernel) kpca.fit(X) X_r=kpca.transform(X)# 原始数据集转换到二维 ax=fig.add_subplot(2,2,i+1) ## 两行两列,每个单元显示一种核函数的 KernelPCA 的效果图 for label ,color in zip( np.unique(y),colors): # np.unique(y)得到几个类别:1、2、3 position=y==label# position的长度为210 # print(position) # 第一次所有类别为1的样本的Position为True ax.scatter(X_r[position,0],X_r[position,1],label="target= %d"%label, color=color) # 找到某一个label的x的列表集合 找到某一个label的y的列表集合 # scatter函数的第一个参数是x的列表,第二个参数是y的列表 # break # break # ax.set_xlabel("X[0]") # ax.set_ylabel("X[1]") # ax.legend(loc="best") # ax.set_title("kernel=%s"%kernel) # plt.suptitle("KPCA") plt.show()
探索函数
kk = np.array([[1,2], [3,4], [5,6]])
kk
array([[1, 2],
[3, 4],
[5, 6]])
pp = pd.Series([True,True,False])
(kk[pp,0],kk[pp,1])
(array([1, 3]), array([2, 4]))
实验过程
- 首先处理数据后得到标准化后的data_std和样本标签y。
- 调用plot_KPCA函数画出不同kernel的KPCA分类图(特征降到二维后分类的图)
实验结果