10 聚类算法 - 代码案例四 - 层次聚类(BIRCH)算法参数比较

简介:

09 聚类算法 - 层次聚类

需求: 基于scikit的API创建模拟数据,使用BIRCH算法对数据进行聚类操作,并比较n_clusters参数的作用。

相关API:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.Birch.html

参数threshold: 代表了FC-Tree中的参数T。叶子节点中每个CF的最大半径阈值T。决定了每个聚类特征所有样本形成的超球体的半径值域。一般来说如果threshold越小,说明CF树在建立的时候规模会比较大。具体选择多大,还是要通过调参来决定。默认值0.5的效果其实还可以,但如果数据方差比较大的时候,一般需要增大threshold的值。因为样本大意味着数据比较离散,如果设置threshold特别小的话,每个聚类特征中将只有很少的元素,CF树会没完没了得生产新的聚类特征CF。

参数branching_factor: 代表了CF-Tree中的参数B=L,即允许最大叶子聚类特征CF数量,和允许每个树节点的最大聚类特征CF数量一致,都等于branching_factor。默认值是50,但如果样本量特别大的时候,比如10万条数据,那么要相对增多branching_factor的值。具体要增大多少?请调参后再慢慢分析。

参数n_clusters: 聚类类别数,在BIRCH中是可选的。如果类别数特别多,我们又没有先验知识的情况下,n_clusters用None即可。http://www.cnblogs.com/lc1217/p/6963687.html

参数compute_labels: 是否输出聚类结果; 默认可以。

常规操作:

from itertools import cycle
from time import time
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.colors as colors

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import Birch
from sklearn.datasets.samples_generator import make_blobs

## 设置属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False


## 产生模拟数据
xx = np.linspace(-22, 22, 10)
yy = np.linspace(-22, 22, 10)
xx, yy = np.meshgrid(xx, yy)
n_centres = np.hstack((np.ravel(xx)[:, np.newaxis],
                       np.ravel(yy)[:, np.newaxis]))


#产生10万条特征属性是2,类别是100,符合高斯分布的数据集
X, y = make_blobs(n_samples=100000,n_features=2, centers=n_centres, random_state=28)
1、创建不同的参数(簇直径)Birch层次聚类

threshold:簇直径的阈值, branching_factor:大叶子个数
我们也可以加参数来试一下效果,比如加入分支因子branching_factor,给定不同的参数值,看聚类的结果。

birch_models = [
    Birch(threshold=2, n_clusters=None),
    Birch(threshold=0.5, n_clusters=None),
    Birch(threshold=1.7, n_clusters=100)
]
2、 画图
final_step = [u'直径=1.7;n_lusters=None',u'直径=0.5;
    n_clusters=None',u'直径=1.7;n_lusters=100']


plt.figure(figsize=(12,8),facecolor='w')
plt.subplots_adjust(left = 0.02, right = 0.98, bottom = 0.1,top = 0.9)
colors_ = cycle(colors.cnames.keys())
cm = mpl.colors.ListedColormap(colors.cnames.keys())
for ind, (birch_model, info) in enumerate(zip(birch_models, final_step)):
    t = time()
    birch_model.fit(X)
    time_ = time() - t
    #获取模型结果(label和中心点)    
    # 所属类别
    labels = birch_model.labels_
    # 中心点坐标
    centroids = birch_model.subcluster_centers_
    n_clusters = len(np.unique(centroids))
    print ("Birch算法,参数信息为:%s;模型构建消耗时间为:%.3f秒;
        聚类中心数目:%d" % (info, time_, len(np.unique(labels))))

    ## 画图
    subinx = 221 + ind
    plt.subplot(subinx)
    for this_centroid, k, col in zip(centroids, range(n_clusters), colors_):
        mask = labels == k
        plt.plot(X[mask, 0], X[mask, 1], 'w', markerfacecolor=col, marker='.')
        if birch_model.n_clusters is None:
            plt.plot(this_centroid[0], this_centroid[1], '*', 
              markerfacecolor=col, markeredgecolor='k', markersize=2)
    plt.ylim([-25, 25])
    plt.xlim([-25, 25])
    plt.title(u'Birch算法%s,耗时%.3fs' % (info, time_))
    plt.grid(False)

## 原始数据集显示
plt.subplot(224)
plt.scatter(X[:, 0], X[:, 1], c=y, s=1, cmap=cm, edgecolors='none')
plt.ylim([-25, 25])
plt.xlim([-25, 25])
plt.title(u'原始数据')
plt.grid(False)
    
plt.show()

如果使用第一组参数,不设置类别,生成了158个聚类中心,和原始数据的结果还不太像,说明效果还不太好。
当直径减少以后,运算的时间变长了。聚类中心的个数变成了3205个,密密麻麻的聚类中心,效果明显不对。
强行设置聚类中心为100个的时候效果最好,和原始数据最接近。

所以具体哪个效果好,哪个效果不好都是需要通过调参来决定的。


重点将K-Means算法和Mini Batch K-Means算法的调参做一做。
04 聚类算法 - 代码案例一 - K-means聚类
06 聚类算法 - 代码案例二 - K-Means算法和Mini Batch K-Means算法比较
07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估

以上是层次聚类的一种算法演示。下面开始介绍另一种聚类的思路:__密度聚类__

11 聚类算法 - 密度聚类 - DBSCAN、MDCA

相关文章
|
1月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
63 0
|
14天前
|
算法
分享一些提高二叉树遍历算法效率的代码示例
这只是简单的示例代码,实际应用中可能还需要根据具体需求进行更多的优化和处理。你可以根据自己的需求对代码进行修改和扩展。
|
17天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
25天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
28 3
|
24天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
存储 算法 搜索推荐
这些算法在实际应用中有哪些具体案例呢
【10月更文挑战第19天】这些算法在实际应用中有哪些具体案例呢
38 1
|
1月前
|
存储 缓存 算法
如何通过优化算法和代码结构来提升易语言程序的执行效率?
如何通过优化算法和代码结构来提升易语言程序的执行效率?
|
1月前
|
搜索推荐
插入排序算法的讲解和代码
【10月更文挑战第12天】插入排序是一种基础的排序算法,理解和掌握它对于学习其他排序算法以及数据结构都具有重要意义。你可以通过实际操作和分析,进一步深入了解插入排序的特点和应用场景,以便在实际编程中更好地运用它。
|
1月前
|
算法 数据可视化 新制造
Threejs路径规划_基于A*算法案例完整版
这篇文章详细介绍了如何在Three.js中完整实现基于A*算法的路径规划案例,包括网格构建、路径寻找算法的实现以及路径可视化展示等方面的内容。
62 0
Threejs路径规划_基于A*算法案例完整版
|
30天前
|
缓存 分布式计算 监控
优化算法和代码需要注意什么
【10月更文挑战第20天】优化算法和代码需要注意什么
18 0
下一篇
无影云桌面