简述熵权算法原理和python实现代码
熵权法是用来评判各指标的权重的算法,相比于层次分析法熵权法具有更高的效率和准确效果。
在介绍熵权定义之前,先引入一个重要的定义信息熵。
信息熵借鉴了热力学中熵的概念,用于描述平均而言事件信息量的大小,所以在数学上,信息熵是事件所包含的信息量的期望(mean,或称均值,或称期望,是试验中每次可能结果的概率乘以其结果的总和),根据期望的定义,可以设想信息熵的公式大概是:
信息熵=
每种可能事件包含的信息量与这一事件的不确定性有关,换言之,与事件发生的概率有关,概率越大则信息量越小。每种可能事件包含的信息量的计算采用不确定性函数 :

根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。

  1. 数据预处理
    数据预处理即冗余数据处理、异常值处理等
  2. 归一化处理
    0-1归一化(临界值法),例如第 个用户的第 个指标是 ,归一化后成为 有下列两个公式:
    或者
    3.计算指标的熵和权
    先计算第 个用户的第 个指标的比重:
    再计算第 个指标的信息熵 ,其中K为常数,
    计算第 个指标的权重
  3. 指标加权计算得分
    利用加权求和公式计算样本的分数或评价值 其中 为综合评分, 为第 个指标的权重。

不足之处
1、在处理非平坦数据时容易出现偏差,需去除异常值。
2、只是介绍的数据间的关联关系,非业务指标。