机器学习与智能优化——利用简单遗传算法优化FCM

简介: 机器学习与智能优化——利用简单遗传算法优化FCM

👉写在前面

本文的目的是要探讨利用简单遗传算法优化FCM,为什么要探讨这个话题呢?

因为单纯的FCM在处理大规模数据时,更加容易收敛到局部最优解,而将遗传算法加入后,可以降低FCM收敛到局部最优解的情况。

笔者之前写过两篇文章 《简单遗传算法优化简单一元函数(python)》《好奇的小老鼠——使用FCM对图片像素进行聚类》 ,分别介绍了简单遗传算法SGA和FCM对图像像素的聚类,有兴趣的读者可以阅读参考。本文参考了《MATLAB智能算法30个案例分析(第2版)》中第20章《基于遗传模拟退火算法的聚类算法》的内容,只不过本文只利用了遗传算法对FCM进行了优化,并未加入模拟退火算法相关的内容。

遗传算法和FCM的原理这里就不再赘述,我们直奔主题。

👉聚类数据

本文的聚类数据由400个二维平面上的点组成,这些点构成4个集合,但彼此之间并没有明显的界限。本文通过使用单纯的FCM聚类和SGA优化初始聚类中心点后的FCM聚类来说明SGA的优势。

👉主体思路

利用简单遗传算法优化FCM主要思路是:在每次遗传算法迭代中,将种群中每个个体基因型解码作为FCM的初始聚类中心坐标(实数值坐标),然后根据解码后的初始聚类中心坐标运行FCM本身的优化方法,得到的FCM目标函数值可以作为遗传个体适应度的依据。得到最优初始聚类中心的同时,也就得到了与之对应的最终的最优聚类中心。

👉编码

大家知道,遗传算法中,编码是很重要的一个环节,本文对二维数据点进行聚类,编码是针对FCM的初始聚类中心进行的,将每个聚类中心的每一个维度的坐标值编码为二进制串,然后将其串联,形成最终的个体基因型。如下图,这里是示意图,每个坐标值的基因型长度需根据实际情况而定。

👉适应度函数

遗传个体的基因型通过解码都会都到一组初始聚类中心,把该初始聚类中心带入FCM,运行FCM本身的优化方法,得到该初始聚类中心对应的最佳聚类中心,同时也会得到对应的最佳目标函数值,鉴于FCM的目标函数值越小,聚类效果越好,可以对FCM目标函数值取反,作为遗传个体的适应度。

👉代码

FCM部分代码(fcm.py):

import numpy as np
class FCM:
    def __init__(self, K, m=2, eps=0.05):
        # 聚类个数
        self.K = K
        # 加权参数
        self.m = m
        # 终止容限
        self.eps = eps
        # 最优相似度矩阵
        self.U = None
        # 最终的聚类中心
        self.centers = None
        # 目标函数值
        self.obj_val = None
    def init_by_centers(self, data, centers):
        # 初始化隶属度矩阵
        self.U = np.random.random((len(data), self.K))
        # 样本到聚类中心的距离
        dist = np.zeros((len(data), self.K))
        for i, x in enumerate(data):
            for j, c in enumerate(centers):
                dist[i][j] = np.linalg.norm(x - c, 2)
        # 计算新的隶属度矩阵
        for i, x in enumerate(data):
            for j, c in enumerate(centers):
                self.U[i][j] = 1./np.sum((dist[i][j]/dist[i]) ** (2/(self.m-1)))
        # 最初的目标函数值
        self.obj_val = np.sum((self.U ** self.m) * (dist ** 2))
    def train(self, data):
        if len(data.shape) == 1:
            data = data[:, np.newaxis]
        if self.U is None:
            # 初始化隶属度矩阵
            self.U = np.random.random((len(data), self.K))
            # 保证每个样本属于所有类的概率是1
            self.U = np.divide(self.U, np.sum(self.U, axis=1)[:, np.newaxis])
        while True:
            temp_U = self.U ** self.m
            # 计算聚类中心
            self.centers = np.divide(np.dot(temp_U.T, data), np.sum(temp_U.T, axis=1)[:, np.newaxis])
            # 样本到聚类中心的距离
            dist = np.zeros((len(data), self.K))
            for i, x in enumerate(data):
                for j, c in enumerate(self.centers):
                    dist[i][j] = np.linalg.norm(x - c, 2)
            # 计算新的隶属度矩阵
            for i, x in enumerate(data):
                for j, c in enumerate(self.centers):
                    temp_U[i][j] = 1./np.sum((dist[i][j]/dist[i]) ** (2/(self.m-1)))
            # 判断是否收敛
            if np.sum(abs(temp_U-self.U)) < self.eps:
                break
            # 更新隶属度矩阵
            self.U = temp_U
            # 更新目标函数值
            self.obj_val = np.sum((self.U ** self.m) * (dist ** 2))
        # 返回样本最大隶属度对应的类别
        return np.argmax(self.U, axis=1)
    def __str__(self) -> str:
        return f"K:{self.K}, m:{self.m}, eps:{self.eps}, U:{self.U}, centers:{self.centers}, dist: {self.dist}"

SGA优化FCM部分代码:

import math
from matplotlib import pyplot as plt
import random
import copy
from fcm import *
# 坐标变量的二进制位数
PRECI = 10
# 个体长度
CHROM_LEN = 20
# 种群大小
POP_SIZE = 10
# 最大遗传代数
MAX_GENERATION = 10
# 交叉概率
PC = 0.7
# 变异概率
PM = 0.01
# FCM指数
FCM_M = 2
# FCM容限
FCM_EPS = 10
# 解码用的参数
class FieldD:
    def __init__(self, K, dim, dim_chrom_len, lb, ub):
        # 聚类个数
        self.K = K
        # 维度个数
        self.dim = dim
        # 每个维度坐标的基因型长度
        self.dim_chrom_len = dim_chrom_len
        # 坐标下界
        self.lb = lb
        # 坐标上界
        self.ub = ub
    def __str__(self) -> str:
        return f"K:{self.K}, dim:{self.dim}, dim_chrom_len{self.dim_chrom_len}, lb:{self.lb}, ub:{self.ub}"
# 解码
def bs2rv(chroms, fieldD: FieldD):
    # 2的幂
    two_pow = np.array([2 ** m for m in range(fieldD.dim_chrom_len)])[:, np.newaxis]
    # 所有遗传个体的所有聚类中心坐标
    centers_coordinates = []
    # 遍历所有类别
    for i in range(fieldD.K):
        # 取出每个类别对应的基因型
        center_start = i * fieldD.dim * fieldD.dim_chrom_len
        center_chroms = chroms[:, center_start:center_start + fieldD.dim * fieldD.dim_chrom_len]
        # 所有遗传个体的单个聚类中心坐标
        coordinates = []
        # 遍历所有维度
        for j in range(fieldD.dim):
            # 取出每个维度对应的基因型
            dim_start = j * fieldD.dim_chrom_len
            dim_chroms = center_chroms[:, dim_start:dim_start + fieldD.dim_chrom_len]
            # 计算该维度基因型对应的表现型,即坐标值
            temp = np.dot(dim_chroms[:, ::-1], two_pow)
            dim_val = fieldD.lb + temp * (fieldD.ub - fieldD.lb) / (math.pow(2, fieldD.dim_chrom_len) - 1)
            coordinates.append(dim_val)
        centers_coordinates.append(np.concatenate(tuple(coordinates), axis=1)[:, np.newaxis, :])
    return np.concatenate(tuple(centers_coordinates), axis=1)
# 选择(复制)操作
def select(population, pop_fitness):
    # 新种群
    new_pop = copy.copy(population)
    # 当代个体适应度总和
    fitness_sum = max(np.sum(pop_fitness), 0.0001)
    # 当代个体累计适应度占比
    cfitness = np.divide(pop_fitness, fitness_sum)
    # 计算累计适应度占比
    _triu = np.triu(np.array([1] * POP_SIZE * POP_SIZE).reshape((POP_SIZE, POP_SIZE)))
    afitness = np.dot(cfitness[np.newaxis, :], _triu).flatten()
    # 依据累计适应度占比进行选择复制,随机数大于对应的累计适应度占比,则进行复制
    for k in range(POP_SIZE):
        index = 0
        while index < POP_SIZE and np.random.random() > afitness[index]:
            index += 1
        # 若无法找到要复制的其他个体,则沿用当前个体
        if index < POP_SIZE:
            new_pop[k] = population[index]
    return new_pop
# 交叉操作
def crossover(population):
    # 随机产生个体配对索引,类似于洗牌的效果
    index = [i for i in range(POP_SIZE)]
    for i in range(POP_SIZE):
        point = random.randint(0, POP_SIZE - i - 1)
        temp = index[i]
        index[i] = index[point + i]
        index[point + i] = temp
    # 两个个体进行交叉
    for i in range(0, POP_SIZE, 2):
        if np.random.random() > PC:
            # 随机选择交叉开始位置
            cross_start = np.random.randint(0, CHROM_LEN - 2) + 1
            # 需要交换的基因
            cross_gene1 = population[index[i]][cross_start:]
            cross_gene2 = population[index[i + 1]][cross_start:]
            # 交叉操作
            population[index[i]] = np.array(population[index[i]][0: cross_start].tolist() + cross_gene2.tolist())
            population[index[i + 1]] = np.array(population[index[i + 1]][0: cross_start].tolist() + cross_gene1.tolist())
# 变异操作
def mutation(population):
    for individual in population:
        for i in range(CHROM_LEN):
            # 随机数小于变异概率,则进行变异操作
            if random.random() < PM:
                individual[i] = 1 if individual[i] is 0 else 0
# 绘制进化过程
def draw_evolution(evolution):
    x = [i for i in range(len(evolution))]
    plt.plot(x, evolution)
    # plt.show()
    plt.savefig('fcm_sga_evolution.png', dpi=800)
    plt.close()
# 得到种群所有个体的适应度值
def get_fitness(pop, data, f: FieldD):
    # 解码为初始聚类中心
    centers = bs2rv(pop, f)
    # 所有个体的适应度
    fitness = []
    # 所有个体最终的聚类中心
    final_centers = []
    # 种群中样本类别
    labels = []
    # 循环所有初始聚类中心
    for center in centers:
        # FCM模型
        fcm_model = FCM(K=f.K, m=FCM_M, eps=FCM_EPS)
        # 通过初始聚类中心计算相似度矩阵
        fcm_model.init_by_centers(data, center)
        # 训练
        _y = fcm_model.train(data)
        # 记录信息
        fitness.append(0-np.max([0., fcm_model.obj_val]))
        final_centers.append(fcm_model.centers)
        labels.append(_y)
    return np.array(fitness), np.array(final_centers), np.array(labels)
    
# 绘制结果
def draw_result(data, best_centers, best_labels):
    plt.scatter(data[:, 0], data[:, 1], c=best_labels, alpha=.1, edgecolors='black')
    # 绘制最优解
    plt.scatter(best_centers[:, 0], best_centers[:, 1], s=100, c='red', marker='*', zorder=2)
    # plt.show()
    plt.savefig('fcm_sga.png', dpi=800)
    plt.close()
def run():
    # 样本数量
    N = 400
    # 测试数据
    X = np.random.rand(N, 2)
    # 聚类个数
    cluster_num = 4
    # 维度个数
    dim_num = 2
    #
    #
    # 原始方法优化FCM
    # FCM模型
    my_fcm = FCM(K=cluster_num, m=FCM_M, eps=FCM_EPS)
    # 训练
    y = my_fcm.train(X)
    print("单纯使用FCM聚类的结果:{}".format(my_fcm.obj_val))
    # 绘图
    plt.scatter(X[:, 0], X[:, 1], c=y, alpha=.1, edgecolors='black')
    plt.scatter(my_fcm.centers[:, 0], my_fcm.centers[:, 1], s=100, c='red', marker='*')
    # plt.show()
    plt.savefig('fcm_only.png', dpi=800)
    plt.close()
    #
    #
    # 利用简单遗传算法进行优化
    
    # 下界
    lb = np.min(X)
    # 上界
    ub = np.max(X)
    # 基因型解析参数
    # K, dim, dim_chrom_len, lb, ub
    f = FieldD(cluster_num, dim_num, PRECI, lb, ub)
    global CHROM_LEN
    CHROM_LEN = cluster_num * dim_num * PRECI
    # 初始种群
    population = np.random.randint(2, size=(POP_SIZE, CHROM_LEN))
    # 初始种群适应度
    pop_fitness, pop_centers, pop_labels = get_fitness(population, X, f)
    # 初始种群最佳和最差个体索引
    best_idx, worst_idx = np.argmax(pop_fitness), np.argmin(pop_fitness)
    # 历史最佳个体及其适应度
    current_best = population[best_idx]
    current_best_fit = pop_fitness[best_idx]
    # 最佳初始聚类中心
    best_centers = pop_centers[best_idx]
    # 最初分类结果
    best_labels = pop_labels[best_idx]
    # 进化过程,每一代的最佳个体的函数值
    evolution = []
    # 循环直到最大代数
    for _ in range(MAX_GENERATION):
        # 选择复制
        population = select(population, pop_fitness)
        # 交叉
        crossover(population)
        # 变异
        mutation(population)
        # 重新计算种群适应度
        pop_fitness, pop_centers, pop_labels = get_fitness(population, X, f)
        # 当前种群最佳和最差个体
        best_idx, worst_idx = np.argmax(pop_fitness), np.argmin(pop_fitness)
        # 利用精英模型执行进化操作,用历史最佳个体代替当代的最差个体
        if pop_fitness[best_idx] > current_best_fit:
            current_best = population[best_idx]
            current_best_fit = pop_fitness[best_idx]
            best_centers = pop_centers[best_idx]
            best_labels = pop_labels[best_idx]
        else:
            population[worst_idx] = current_best
        # 更新进化过程
        evolution.append(0-round(current_best_fit, 4))
    print("使用遗传算法优化FCM聚类的结果:{}".format(0-current_best_fit))
    # 绘制进化过程
    draw_evolution(evolution)
    # 绘制结果
    draw_result(X, best_centers, best_labels)
if __name__ == "__main__":
    run()

FCM目标函数值对比:

单纯使用FCM聚类的结果:10.232015239531716
使用遗传算法优化FCM聚类的结果:10.169934869980217

结果显示,使用SGA优化FCM的效果更好。

单纯使用FCM进行聚类效果

使用SGA优化FCM的效果

遗传算法进化过程

作者这水平有限,有不足之处欢迎留言指正

相关文章
|
12天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
13天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
7天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
23 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
13天前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
16天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
41 4
|
24天前
|
人工智能 算法 数据安全/隐私保护
基于遗传优化的SVD水印嵌入提取算法matlab仿真
该算法基于遗传优化的SVD水印嵌入与提取技术,通过遗传算法优化水印嵌入参数,提高水印的鲁棒性和隐蔽性。在MATLAB2022a环境下测试,展示了优化前后的性能对比及不同干扰下的水印提取效果。核心程序实现了SVD分解、遗传算法流程及其参数优化,有效提升了水印技术的应用价值。
|
23天前
|
存储 缓存 算法
优化轮询算法以提高资源分配的效率
【10月更文挑战第13天】通过以上这些优化措施,可以在一定程度上提高轮询算法的资源分配效率,使其更好地适应不同的应用场景和需求。但需要注意的是,优化策略的选择和实施需要根据具体情况进行详细的分析和评估,以确保优化效果的最大化。
|
24天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
24天前
|
存储 缓存 算法
前端算法:优化与实战技巧的深度探索
【10月更文挑战第21天】前端算法:优化与实战技巧的深度探索
20 1
|
25天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-LSTM网络的数据分类识别算法matlab仿真
本项目展示了基于贝叶斯优化(BO)的CNN-LSTM网络在数据分类中的应用。通过MATLAB 2022a实现,优化前后效果对比明显。核心代码附带中文注释和操作视频,涵盖BO、CNN、LSTM理论,特别是BO优化CNN-LSTM网络的batchsize和学习率,显著提升模型性能。

热门文章

最新文章