【Python机器学习】K-Means算法对人脸图像进行聚类实战（附源码和数据集）-阿里云开发者社区

【Python机器学习】K-Means算法对人脸图像进行聚类实战（附源码和数据集）

2023-12-20 185

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Python机器学习】K-Means算法对人脸图像进行聚类实战（附源码和数据集）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

K-Mean算法，即 K 均值算法，是一种常见的聚类算法。算法会将数据集分为 K 个簇，每个簇使用簇内所有样本均值来表示，将该均值称为“质心”。

算法步骤

K-Means

容易受初始质心的影响；算法简单，容易实现；算法聚类时，容易产生空簇；算法可能收敛到局部最小值。

通过聚类可以实现：发现不同用户群体，从而可以实现精准营销；对文档进行划分；社交网络中，通过圈子，判断哪些人可能互相认识；处理异常数据。

距离计算方式是欧式距离。

1.从样本中选择 K 个点作为初始质心（完全随机）
2.计算每个样本到各个质心的距离，将样本划分到距离最近的质心所对应的簇中
3.计算每个簇内所有样本的均值，并使用该均值更新簇的质心
4.重复步骤 2 与 3 ，直到达到以下条件之一：
    质心的位置变化小于指定的阈值（默认为 0.0001）
    达到最大迭代次数

K-Means++

K-Means++,算法受初始质心影响较小；表现上，往往优于 K-Means 算法；与 K-Means算法不同仅在于初始质心的选择方式不同

在选择初始质心上，进行优化：
1.从样本中选择 1 个点作为初始质心（完全随机）
2.对于任意一个非质心样本 x,计算x与现有最近质心距离 D(x)
3.基于距离计算概率，来选择下一个质心 x，选择距离当前质心远的点作为质心
4.重复步骤 2 与 3 ，直到选择 k 个质心为止。

Mini Batch K-Means

与 K-Means 算法相比，大大减少计算时间

在K-Means算法上发展而来
1.从数据集中随机选择部分数据，使用 K-Means 算法在这部分随机数据上聚类，获取质心
2.从数据集中随机选择部分数据，形成一个批次，将该批次数据分配给最近的质心
3.根据现有的数据集（当前批次数据 + 所有以前的数据）更新质心
4.重复步骤 2 与 3 ，直到质心变化小于指定的阀值或者达到最大迭代次数为止

k-means图像聚类实战

人脸数据集LFW(Labeled Faces in the Wild)是一个带标签的人物脸部图片数据集

打印数据中人物标记、人物名、数据形状、标记形状等信息如下

打印部分人脸图片如下

统计每个标记数量如下

对一张照片进行kmeans聚类结果如下可见把图像聚成两类

部分代码如下

# -*- coding: utf-8 -*-
from PIL import Image
import numpy as np
from sklearn.cluster import KMeans
import matplotlib
import matplotlib.pyplot as plt
def restore_image(cb, cluster, shape):
    row, col, dummy = shape
    image = np.empty((row, col, dummy))
    for r in range(row):
        for c in range(col):
            image[r, c] = cb[cluster[r * col + c]]
    return image
if __name__ ==.rcParams['font.sans-serif'] = [u'SimHei']
    matplotlib.rcParams['axes.unicode_minus'] = False
    # 聚类数2,6,30
    num_vq = 2
    im = Image.open('Tiger_Woods_0023.jpg')
    image = np.array(im).astype(np.float) / 255
    image = image[:, :, :3]
    image_v = image.reshape((-1, 3))
    kmeans = KMeans(n_clusters=num_vq, init='k-means++')    
    N = image_v.shape[0]  # 图像像素总数
    # 选择样本，计算聚类中心
    idx = np.random.randint(0, N, size=int(N * 0.7))
    image_sample = image_v[idx]
    kmeans.fit(image_sample)
    result = kmeans.predict(image_v)  # 聚类结果
    print('聚类结果:\n', result)
    print('聚类中心:\n', kmeans.cluster_centers_)
    ns.cluster_centers_, result, image.shape)
    plt.axis('off')
    plt.title(u'聚类个数:%d' % num_vq, fontsize=20)
    plt.imshow(vq_image)
    # 可以使用plt.savefig('矢量化图片.png')，保存处理后的图片并对比
    plt.tight_layout(1.2)
    plt.show()
import matplotlib
import matplotlib.pyplot as plt
image_shape = people.images[0].shape
print(image_shape)
print("Number of classes:",len(people.target_names))
print("shape of targetss:",people.target.shape)
fig, axes = plt.subplots(2, 5, figsize=(15, 8))
for target, image, ax in zip(people.target, people.images, axes.ravel()):
    ax.imshow(image)
    ax.set_title(people.target_names[target])

创作不易觉得有帮助请点赞关注收藏~~~

【Python机器学习】K-Means算法对人脸图像进行聚类实战（附源码和数据集）

算法步骤

k-means图像聚类实战

热门文章

最新文章

相关课程

相关电子书

相关实验场景