理论

        在解决如何确定指标重要性问题的过程中,往往要考虑到各级指标的权重,而权重确定的方法也有很多,例如经常被使用的层次分析法、主成分分析法、灰色关联法等,但是很多方法都受到实际问题中数据量不够、主观成分较大等问题的限制。

        熵权法可用信息论的基本原理来解释,信息是用来测量系统的有序程度,熵则是用来测量系统的无序程度;根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,并且信息熵值越小,指标的离散程度(无须程度)越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。所以,我们可以充分利用信息熵来计算各个指标的权重,为具有多个指标的综合评价提供依据。

        相比较于其他的综合评价方法,熵权法是一种客观赋权法,可以直接根据各项指标的观测值提供的信息量大小,即指标的变异程度,来确定指标权重,避免了人为因素带来的误差,相较于主观赋权法具有较高的可信度和精确度。

第一步:数据标准化

      通过pandas读取数据,看看原始数据的本来面目,再根据数据的正向性(越大越好)或负向性(越小越好)进行0-1标准化,注意标准化的方法有很多,此处使用的标准化方法并不是唯一的,也不一定是最好的,标准化的方法要根据实际情况选择相对合理的。可以参考这篇文章的三种标准化方法。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
datas=pd.read_excel(r'层次分析法所用指标.xlsx')
datas=datas.iloc[:,:-2]
datas.set_index(datas.columns.tolist()[0], inplace=True)#把第一列(时间列)作为索引
datas

熵权法评价步骤 python 熵权法评分_数学建模

注意:此处指标中只有利润率是效益性指标(越大越好),其余指标均是成本型指标(最小越好)

熵权法评价步骤 python 熵权法评分_scikit-learn_02

#数据标准化
columns=datas.columns.tolist()#列名用列表形式表示,方便读取
#正向指标标准化
for col in columns[:1]:
    datas[col]=(datas[col]-datas[col].min())/(datas[col].max()-datas[col].min())#x=(x-最小值)/(最大值-最小值)
    datas[col]=datas[col]/datas[col].sum()#x/一列总和
#负向指标标准化 
for col in columns[1:]:
    datas[col]=(datas[col].max()-datas[col])/(datas[col].max()-datas[col].min())#x=(最大值-x)/(最大值-最小值)
    datas[col]=datas[col]/datas[col].sum()#x/一列总和
datas=datas.replace({0.000000:0.00000001})#此处把0值用一个极小值代替,可避免后续0作为分母报错
datas

熵权法评价步骤 python 熵权法评分_python_03

第二步:计算每个指标的信息熵e

熵权法评价步骤 python 熵权法评分_熵权法评价步骤 python_04

n=len(datas[columns[0]].tolist())#数据长度
E=[]#用于存储每个指标的e(信息熵)值
for col in columns:
    num=0
    for p in datas[col].tolist():
        num+=p*np.log(p)
    E.append((-1/np.log(n))*num)
E

熵权法评价步骤 python 熵权法评分_数学建模_05

第三步:计算权重

熵权法评价步骤 python 熵权法评分_数学建模_06

d=1-pd.Series(E,name='权重',index=columns)#信息效用值
w=d/d.sum()#权重
w

熵权法评价步骤 python 熵权法评分_python_07

第四步:加权计算每一年的得分

S=P*W

W=np.array(w).reshape(6,1)#数组化,便于矩阵相乘
P=np.array(datas.values.tolist()) #每一行代表一个对象的指标评分
score=np.dot(P,W) #矩阵相乘
score=score*4+1#把结果整体扩大,便于观察差异
score

熵权法评价步骤 python 熵权法评分_python_08

 最后我们画个折线图看一下趋势:

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.plot([x for x in range(2012,2022)],list(score),marker='o')
plt.title('南京市2012-2021年土地价值指数评价')
plt.xlabel('年份')
plt.ylabel('土地价值指数')
plt.grid()

熵权法评价步骤 python 熵权法评分_熵权法评价步骤 python_09

Python完整代码如下:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
datas=pd.read_excel(r'层次分析法所用指标.xlsx')
datas=datas.iloc[:,:-2]
datas.set_index(datas.columns.tolist()[0], inplace=True)#把第一列(时间列)作为索引

##数据标准化
columns=datas.columns.tolist()#列名用列表形式表示,方便读取
#正向指标标准化
for col in columns[:1]:
    datas[col]=(datas[col]-datas[col].min())/(datas[col].max()-datas[col].min())#x=(x-最小值)/(最大值-最小值)
    datas[col]=datas[col]/datas[col].sum()#x/一列总和
#负向指标标准化 
for col in columns[1:]:
    datas[col]=(datas[col].max()-datas[col])/(datas[col].max()-datas[col].min())#x=(最大值-x)/(最大值-最小值)
    datas[col]=datas[col]/datas[col].sum()#x/一列总和
datas=datas.replace({0.000000:0.00000001})#此处把0值用一个极小值代替,可避免后续0作为分母报错

##熵权法
n=len(datas[columns[0]].tolist())#数据长度
E=[]#用于存储每个指标的e(信息熵)值
for col in columns:
    num=0
    for p in datas[col].tolist():
        num+=p*np.log(p)
    E.append((-1/np.log(n))*num)
d=1-pd.Series(E,name='权重',index=columns)#信息效用值
w=d/d.sum()#权重

##计算加权后的指标得分
W=np.array(w).reshape(6,1)#数组化,便于矩阵相乘
P=np.array(datas.values.tolist()) #每一行代表一个对象的指标评分
score=np.dot(P,W) #矩阵相乘
score=score*4+1#把结果整体扩大,便于观察差异

##可视化
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.plot([x for x in range(2012,2022)],list(score),marker='o')
plt.title('南京市2012-2021年土地价值指数评价')
plt.xlabel('年份')
plt.ylabel('土地价值指数')
plt.grid()

熵权法是常用的权重计算方法,但是针对指标很多,维度很多的复杂指标体系,熵权法可能效果一般,所以评价类方法解决复杂问题的往往会用熵权法+云模型、熵权-突变级数法、熵权法+层次分析法等组合方法,后续会用同样的数据介绍其他的评价类方法,例如云模型、主成分分析法等。