👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。
一、要求
聚类任务建模分析:data目录中的data2.csv提供了一个种子数据集,该数据集包含了不同种类的种子以及它们的多个特征(如区域、周长、紧凑度等)。你的任务是:
- 对数据进行预处理,包括必要的特征缩放和编码。(6分)
- 使用选择聚类算法对种子进行聚类。(6分)
- 选择适当的指标,确定最佳的聚类数目,并评估聚类的效果。(6分)
- 可视化聚类结果,并解释不同聚类之间的区别和相似性。(6分)
- 讨论聚类结果在实际应用中的潜在用途。(6分)
👉👉👉源码关注【测试开发自动化】公众号,回复 “ 种子聚类 ” 获取。👈👈👈
二、代码分析
- 数据导入和预处理:
- 使用 Pandas 库读取 CSV 文件,并将数据存储在 DataFrame 中。
- 选择要进行特征缩放的列,然后使用 StandardScaler 进行标准化处理。
data = pd.read_csv("data2.csv") features = df.columns[:-1]
- 寻找最优聚类数:
- 使用轮廓系数(silhouette score)来确定最佳的聚类数量。
- 遍历不同的聚类数,训练 KMeans 模型,并计算轮廓系数。
- 选择轮廓系数最高的聚类数作为最优聚类数。
silhouette_scores = [] for k in range(2, 9): kmeans = KMeans(n_clusters=k, random_state=42) kmeans.fit(df_scaled) # 略.... optimal_k = range(2, 9)[silhouette_scores.index(max(silhouette_scores))] print(f'Optimal number of clusters: {optimal_k}')
👉👉👉源码关注【测试开发自动化】公众号,回复 “ 种子聚类 ” 获取。👈👈👈
- 绘制轮廓系数的折线图:
- 使用 Matplotlib 绘制不同聚类数对应的轮廓系数。
- 通过折线图观察轮廓系数的变化趋势,找到最优聚类数。
plt.title('Silhouette Score for Different Number of Clusters') plt.xlabel('Number of Clusters') plt.ylabel('Silhouette Score') plt.xticks(range(2, 9)) plt.grid(True) plt.show()
- 聚类及可视化:
- 使用最优聚类数进行 KMeans 聚类。
- 使用 PCA 进行数据降维,将数据可视化到二维空间。
- 使用 Matplotlib 绘制聚类结果的散点图。
kmeans = KMeans(n_clusters=optimal_k, random_state=42) # 略 ... plt.scatter(df_pca[:, 0], df_pca[:, 1], c=clusters, cmap='viridis', label=f'Cluster') plt.title('Cluster Visualization with PCA') plt.xlabel('Principal Component 1') plt.ylabel('Principal Component 2') plt.colorbar(label='Cluster') plt.show()
👉👉👉源码关注【测试开发自动化】公众号,回复 “ 种子聚类 ” 获取。👈👈👈
👉👉👉源码关注【测试开发自动化】公众号,回复 “ 种子聚类 ” 获取。👈👈👈
- 绘制柱状图显示各个簇的数量:
- 使用 Matplotlib 绘制柱状图,展示各个簇的数量分布。
plt.hist(clusters, bins=optimal_k, color='skyblue', edgecolor='black') plt.title('Histogram of Clusters') plt.xlabel('Cluster') plt.ylabel('Count') plt.xticks(range(optimal_k)) plt.grid(True) plt.show()
👉👉👉源码关注【测试开发自动化】公众号,回复 “ 种子聚类 ” 获取。👈👈👈