【机器学习】基于组平均的AGNES算法，支持多维数组，距离用欧式距离

2023-01-19 190

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【机器学习】基于组平均的AGNES算法，支持多维数组，距离用欧式距离

2021人工智能领域新星创作者，带你从入门到精通，该博客每天更新，逐渐完善各个知识体系的文章，帮助大家更高效学习。

自己实现基于组平均的AGNES算法，语言不限。要能支持多维数组，距离用欧式距离

numpy实现

相似性度量方式：average-cluster

绘制层次树图

编程实现

"""
 * Created with PyCharm
 * 作者: Laura
 * 日期: 2021/11/6
 * 时间: 12:10
 * 描述: 基于组平均的AGNES算法，支持多维数组，距离用欧式距离
"""
import numpy as np
import pandas as pd
from scipy.cluster.hierarchy import dendrogram,linkage
from scipy.spatial.distance import squareform
import matplotlib.pyplot as plt
import random
class AGNES():
    def __init__(self, data, cluster = 2):
        self.cluster = cluster
        self.data = data
        self.distance_matrix = []
        self.dic = {}
        self.dic_ = {}
        self.index = ['A', 'B', 'C', 'D', 'E']
        self.columns = ['A', 'B', 'C', 'D', 'E']
    def init_data(self, data, dic):
        dic={i:[chr(ord('A')+i)] for i in range(len(data))}
        data = self.calculate_distance(data)
        self.distance_matrix = data.copy()
        row, col = np.diag_indices_from(data) 
        temp = data.max() + 1
        data[row, col] = temp
        row_, col_ = np.triu_indices_from(data, k = 0)
        data[row_, col_] = temp
        return data, dic
    def train(self, cluster, method='train'):
        data = self.data.copy()
        dic = {}
        data, dic = self.init_data(data, dic)
        k = 0
        while k < len(data) - cluster:
            location = np.where(data == data.min()) # 找到此时矩阵距离最小值的坐标
            x, y = location[0][0], location[1][0]   # 分别获取横纵坐标
            x_ = self.index[x]
            y_ = self.columns[y]                    # 获取对应样本信息
            x_key = '-'
            y_key = '-'
            for key, value in dic.items():
                if x_ in value:
                    x_key = key
                if y_ in value:
                    y_key = key
            dic[y_key].extend(dic[x_key])
            dic.pop(x_key)
            slic = dic[y_key]  # 更新簇的样本
            num = len(dic[y_key]) # 簇内样本的数目
            data_sum = np.zeros(5)
            for item in slic:
                data_sum += data[:, self.index.index(item)]
            data_sum /= num
            for item in slic:
            #   data[index.index(item)]=data_sum
                data[:, self.index.index(item)] = data_sum
                row, col = np.diag_indices_from(data) 
                temp = data.max() + 999
                data[row, col] = temp
                row_,col_ = np.triu_indices_from(data, k=0)
                data[row_, col_] = temp
            k += 1
        if method == 'train':
            self.dic = dic
        else:
            self.dic_ = dic
    def draw(self):
        dists = squareform(self.distance_matrix)
        linkage_type = 'average'   # single,complete,average不同方式
        linkage_matrix = linkage(dists, linkage_type)
        dendrogram(linkage_matrix, labels = self.index)
        plt.show()
    def process(self):
        for cluster in range(1, self.distance_matrix.shape[0] + 1):
            self.train(cluster, 'other')
            print('簇数：', cluster, self.dic_)
    def calculate_distance(self, data):
        distance_matrix = np.zeros((data.shape[0],data.shape[1]))
        for i in range(data.shape[0]):
            for j in range(data.shape[1]):
                distance_matrix[i][j] = np.sum((data[i] - data[j])**2)
        return distance_matrix
data = np.random.rand(5, 5)
model = AGNES(data)
model.train(cluster = 2)
model.process()
model.draw()

【机器学习】基于组平均的AGNES算法，支持多维数组，距离用欧式距离

编程实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【机器学习】基于组平均的AGNES算法，支持多维数组，距离用欧式距离

编程实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景