一文速学-熵权法实战确定评价指标权重

简介: 一文速学-熵权法实战确定评价指标权重

前言


博主参与八次数学建模大赛,其实数学建模和大数据分析有很多相似之处,可以说差不多是共通的。经历了这么多次比赛个人总结一些建模必备的数据分析方法是必须要完全掌握。本篇博客的愿景是希望我或者读者通过阅读这篇博客能够学会熵权法方法并能实际运用,而且能够记录到你的思想之中。当然个人不是数学专业对一些专业性的知识可能不是很了解,希望读者看完能够提出错误或者看法,博主会长期维护博客做及时更新。纯分享,希望大家喜欢。


一、熵权法介绍



在确定各项评价指标权重的算法中,熵权法在很多评价法作为计算指标权重的一只核心基础算法,如秩和比综合评价法RSR或是优劣解距离法TOPSIS。易于理解的话来讲,熵权法就是看该指标数据是否相对集中或是相对离散,要是基本上都差不多的数据,那么这些数据熵就很小,比较集中。说明在这个指标上面体现不出样本的差异性,导致这个指标并不是那么重要。所以该指标权重就小,相反数据差距很大,权重就大。


熵值法根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。


二、使用步骤


1.数据预处理


拿到第一手数据后肯定不能直接使用的,需要进行数据预处理才能更好建模。

想对数据预处理方法了解更清楚的可以去看这篇:数据预处理归一化详细解释

这里我们使用数据处理方法之一的min-max标准化:

gif.gif


对于指标来说,一般分有正向指标和负向指标之分:

正向指标:指标值越大评价越好的指标,如脱单率,脱贫率。

ce5b47c9ea6e45d4a032f0ad99bde6b1.png


负向指标:指标值越大评价越差的指标,如死亡率,失业率。


16498b71981e4d51b1680b9a9006e4ab.png


2.计算指标信息熵


(1)计算第j项指标下第i个样本值占比重:


1db0d179a90c46b1a02ae952640f0a3a.png


(2) 计算各指标的信息熵:


41be58b8c0374d85915dfe47179e6af2.png

第j项指标的数据差异越大,熵值越小;反之,熵值越大。

(3)计算信息效用值d


ffb7f11438704901888b3b75056e63bd.png


(4)计算j指标权重

1d229b1318ee4db4ac86eb9aff039f46.png

3.相关代码

import numpy as np
import pandas as pd
data = pd.read_csv(r"C:\Users\指标.csv",sep=',')
data.info()
data
#标准化数据
data_test1=data.iloc[:,1:5] 
data_test1
data_test2 = (data_test1 - data_test1.min())/(data_test1.max() -data_test1.min())
data_test2
m,n=data_test2.shape
#将dataframe格式转化为matrix格式
data_test3=data_test2.values
data_test3
k=1/np.log(m)
yij=data.sum(axis=0)
pij=data/yij
#第二步,计算pij
test=pij*np.log(pij)
test=np.nan_to_num(test)
#计算每种指标的信息熵
ej=-k*(test.sum(axis=0))
#计算每种指标的权重
wi=(1-ej)/np.sum(1-ej)


三、实例运用


这里我们选择27个公司的数据开发投资数据:

49ac1f72c9704b329e73124fac4677a6.png

04af70ffeab046ea953ae86a55ef18d5.png

熵权法实战代码,根据港口研发投入数据进行熵值法确定权重。


四、总结


优点


  • 能深刻反映出指标的区分能力,进而确定权重
  • 是一种客观赋权法,相对主管赋权具有较高的可信度和精确度
  • 算法简单


缺点


  • 不够智能,没有考虑指标与指标之间的影响,如:相关性、层级关系等
  • 若无业务经验指导,权重可能失真
  • 对样本的依赖性较大,随着建模样本不断变化,权重会发生一定波动


适用范围


当业务经验不会使得权重发生失真,则比较适用于熵权法;反之,若经常发生权重失真的情况,则需要结合专家打分或评判才能较好的发挥熵权法的优势。同时,确定权重前需要确定指标对目标得分的影响方向,对非线性的指标要进行预处理或者剔除。

目录
相关文章
|
算法 定位技术
基于MATLAB的GPS卫星绕地运行轨迹动态模拟仿真
基于MATLAB的GPS卫星绕地运行轨迹动态模拟仿真
|
编解码 监控 测试技术
如何优化OBS的推流设置以提高直播质量
【10月更文挑战第7天】如何优化OBS的推流设置以提高直播质量
|
Java 应用服务中间件 文件存储
使用docker-compose轻松部署FastDFS,高效管理文件存储
在现代互联网应用中,文件存储和管理是一个至关重要的部分。FastDFS是一个快速、可靠的分布式文件系统,广泛应用于各种需要高效文件存储和访问的场景。本文将介绍如何使用Docker轻松地部署FastDFS,以便快速搭建一个可靠的文件存储系统。
662 0
使用docker-compose轻松部署FastDFS,高效管理文件存储
|
人工智能 计算机视觉
Photoshop2023新版本win11系统安装下载教程
ps迎来了2023的版本,这次的版本提升针对windows11做了特别优化,启动速度比win10快了很多。期盼已久的Win版 PS 2023 终于来了,小编也是通过特殊渠道搞来的,本期带来的WIN版本支持一键安装激活,一次安装永久免费使用众所周知,版本越高,需要的电脑配置也就越来越高。下面放一下2023版本的配置供大家参考。需要注意的是这些版本不再支持windows7系统,仅支持win10及以上的操作系统。
2839 0
|
8月前
|
人工智能 安全 API
什么是通用人工智能?一文了解2025年AGI技术突破、企业尝试与未来趋势
通用人工智能(AGI)是指具备人类同等认知广度的机器系统,能跨领域学习、推理和解决问题。随着GPT5等模型的突破,AI已能在影视创作、医疗诊断、编程等领域展现强大能力,推动AGI从科幻走向现实。本文深入解析AGI的技术进展、落地应用与伦理挑战,展现其如何重塑产业与社会。
2576 0
|
8月前
|
存储 Linux
Linux环境下删除大文件后磁盘空间未释放问题诊断流程。
以上诊断流程涉及Linux底层机制与高级管理技能结合之处,并需要管理员根据实际环境灵活调整诊断策略与解决方案。
620 8
|
5月前
|
弹性计算 测试技术 数据库
阿里云服务器收费模式怎么选?包年包月VS按量付费,区别及选择参考
对于部分初次选购阿里云服务器的用户来说,云服务器的收费模式是大家比较关注的问题。虽然阿里云提供了多种收费模式,不过包年包月和按量付费依然是用户的首选,对于用户而言,挑选适宜的收费模式意义重大,它直接关乎成本控制以及资源使用的灵活程度。本文将深入剖析阿里云服务器的这两种主要收费模式,助力大家做出合理选择。
686 5
|
存储 开发框架 前端开发
基于SqlSugar的开发框架循序渐进介绍(10)-- 利用axios组件的封装,实现对后端API数据的访问和基类的统一封装处理
基于SqlSugar的开发框架循序渐进介绍(10)-- 利用axios组件的封装,实现对后端API数据的访问和基类的统一封装处理
|
机器学习/深度学习 算法 开发工具
通义千问2(Qwen2)大语言模型在PAI-QuickStart的微调、评测与部署实践
阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen2模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen2系列模型的微调、评测和快速部署。
成功解决smtplib.SMTPAuthenticationError: (535, b'Error: \xc7\xeb\xca\xb9\xd3\xc3\xca\xda\xc8\xa8\xc2\xeb
成功解决smtplib.SMTPAuthenticationError: (535, b'Error: \xc7\xeb\xca\xb9\xd3\xc3\xca\xda\xc8\xa8\xc2\xeb