【Python机器学习】K-Means算法对人脸图像进行聚类实战(附源码和数据集)

简介: 【Python机器学习】K-Means算法对人脸图像进行聚类实战(附源码和数据集)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

K-Mean算法,即 K 均值算法,是一种常见的聚类算法。算法会将数据集分为 K 个簇,每个簇使用簇内所有样本均值来表示,将该均值称为“质心”。

算法步骤

K-Means

容易受初始质心的影响;算法简单,容易实现;算法聚类时,容易产生空簇;算法可能收敛到局部最小值。

通过聚类可以实现:发现不同用户群体,从而可以实现精准营销;对文档进行划分;社交网络中,通过圈子,判断哪些人可能互相认识;处理异常数据。

距离计算方式是 欧式距离。

1.从样本中选择 K 个点作为初始质心(完全随机)
2.计算每个样本到各个质心的距离,将样本划分到距离最近的质心所对应的簇中
3.计算每个簇内所有样本的均值,并使用该均值更新簇的质心
4.重复步骤 2 与 3 ,直到达到以下条件之一:
    质心的位置变化小于指定的阈值(默认为 0.0001)
    达到最大迭代次数

K-Means++

K-Means++,算法受初始质心影响较小;表现上,往往优于 K-Means 算法;与 K-Means算法不同仅在于初始质心的选择方式不同

在选择初始质心上,进行优化:
1.从样本中选择 1 个点作为初始质心(完全随机)
2.对于任意一个非质心样本 x,计算x与现有最近质心距离 D(x)
3.基于距离计算概率,来选择下一个质心 x,选择距离当前质心远的点作为质心
4.重复步骤 2 与 3 ,直到选择 k 个质心为止。

Mini Batch K-Means

与 K-Means 算法相比,大大减少计算时间

在K-Means算法上发展而来
1.从数据集中随机选择部分数据,使用 K-Means 算法在这部分随机数据上聚类,获取质心
2.从数据集中随机选择部分数据,形成一个批次,将该批次数据分配给最近的质心
3.根据现有的数据集(当前批次数据 + 所有以前的数据)更新质心
4.重复步骤 2 与 3 ,直到质心变化小于指定的阀值或者达到最大迭代次数为止

k-means图像聚类实战

人脸数据集LFW(Labeled Faces in the Wild)是一个带标签的人物脸部图片数据集


打印数据中人物标记、人物名、数据形状、标记形状等信息如下


打印部分人脸图片如下

统计每个标记数量如下

对一张照片进行kmeans聚类结果如下 可见把图像聚成两类

部分代码如下

# -*- coding: utf-8 -*-
from PIL import Image
import numpy as np
from sklearn.cluster import KMeans
import matplotlib
import matplotlib.pyplot as plt
def restore_image(cb, cluster, shape):
    row, col, dummy = shape
    image = np.empty((row, col, dummy))
    for r in range(row):
        for c in range(col):
            image[r, c] = cb[cluster[r * col + c]]
    return image
if __name__ ==.rcParams['font.sans-serif'] = [u'SimHei']
    matplotlib.rcParams['axes.unicode_minus'] = False
    # 聚类数2,6,30
    num_vq = 2
    im = Image.open('Tiger_Woods_0023.jpg')
    image = np.array(im).astype(np.float) / 255
    image = image[:, :, :3]
    image_v = image.reshape((-1, 3))
    kmeans = KMeans(n_clusters=num_vq, init='k-means++')    
    N = image_v.shape[0]  # 图像像素总数
    # 选择样本,计算聚类中心
    idx = np.random.randint(0, N, size=int(N * 0.7))
    image_sample = image_v[idx]
    kmeans.fit(image_sample)
    result = kmeans.predict(image_v)  # 聚类结果
    print('聚类结果:\n', result)
    print('聚类中心:\n', kmeans.cluster_centers_)
    ns.cluster_centers_, result, image.shape)
    plt.axis('off')
    plt.title(u'聚类个数:%d' % num_vq, fontsize=20)
    plt.imshow(vq_image)
    # 可以使用plt.savefig('矢量化图片.png'),保存处理后的图片并对比
    plt.tight_layout(1.2)
    plt.show()
import matplotlib
import matplotlib.pyplot as plt
image_shape = people.images[0].shape
print(image_shape)
print("Number of classes:",len(people.target_names))
print("shape of targetss:",people.target.shape)
fig, axes = plt.subplots(2, 5, figsize=(15, 8))
for target, image, ax in zip(people.target, people.images, axes.ravel()):
    ax.imshow(image)
    ax.set_title(people.target_names[target])

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
8月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
976 7
|
8月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
8月前
|
传感器 运维 前端开发
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
605 10
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
|
8月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
8月前
|
Cloud Native 算法 API
Python API接口实战指南:从入门到精通
🌟蒋星熠Jaxonic,技术宇宙的星际旅人。深耕API开发,以Python为舟,探索RESTful、GraphQL等接口奥秘。擅长requests、aiohttp实战,专注性能优化与架构设计,用代码连接万物,谱写极客诗篇。
1745 1
Python API接口实战指南:从入门到精通
|
8月前
|
存储 分布式计算 测试技术
Python学习之旅:从基础到实战第三章
总体来说,第三章是Python学习路程中的一个重要里程碑,它不仅加深了对基础概念的理解,还引入了更多高级特性,为后续的深入学习和实际应用打下坚实的基础。通过这一章的学习,读者应该能够更好地理解Python编程的核心概念,并准备好应对更复杂的编程挑战。
244 12
|
8月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
9月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
1080 19
|
8月前
|
存储 数据采集 监控
Python文件操作全攻略:从基础到高级实战
本文系统讲解Python文件操作核心技巧,涵盖基础读写、指针控制、异常处理及大文件分块处理等实战场景。结合日志分析、CSV清洗等案例,助你高效掌握文本与二进制文件处理,提升程序健壮性与开发效率。(238字)
669 1
|
8月前
|
存储 Java 调度
Python定时任务实战:APScheduler从入门到精通
APScheduler是Python强大的定时任务框架,通过触发器、执行器、任务存储和调度器四大组件,灵活实现各类周期性任务。支持内存、数据库、Redis等持久化存储,适用于Web集成、数据抓取、邮件发送等场景,解决传统sleep循环的诸多缺陷,助力构建稳定可靠的自动化系统。(238字)
1485 1

推荐镜像

更多