可解释机器学习 Task06 -LIME可解释性分析
- 一、LIME简介
- 二、表格数据 LIME可解释性分析(以葡萄酒质量二分类数据集为例)
- 三、图像数据 LIME可解释性分析
- 四、文本数据 LIME可解释性分析
- 五、选取有代表性的样本
- 六、LIME的优缺点
- 1.优点
- 2.缺点
- 七、LIME改进——自适应距离(OptiLIME)
一、LIME简介
论文:“Why Should I Trust You?”: Explaining the Predictions of Any Classifier
- 原始模型的高维边界是十分复杂的,类似黑箱的
- 我们选取一个待测样本,从该样本的邻域生成一些邻域的样本
- 与待测样本近的样本权重高,与待测样本远的样本权重低
- 把这些权重高的样本输入到原始模型中,得到原始模型的预测结果
- 选取一个可解释性非常好的模型(下图为线性回归),在局部拟合出原模型
- 通过这个可解释性非常好的模型来分析出原模型的哪些特征重要,哪些特征不重要
二、表格数据 LIME可解释性分析(以葡萄酒质量二分类数据集为例)
- 先选取一条数据(一杯葡萄酒的数据)
- 对于其每一个特征进行微小扰动
- 扰动影响越大的样本,距离原始样本的距离较远,权重较小
- 扰动影响越小的样本,距离原始样本的距离较近,权重较大
- 一个样本可以生成好多扰动样本,将扰动样本输入到模型中生成结果
- 将结果作为标注,扰动样本作为特征,训练一个可解释的模型
三、图像数据 LIME可解释性分析
扰动方式:需要自己指定扰动的方法
- 本例采用超像素分割算法:将原图聚类分割成N个图块,每一个图块都是1/0(0:不存在,灰色色块;1:存在,原始色块),则这个长度为N的向量为可解释的特征
- 所以下图的图片为特征,后面0.85、0.00001、0.52为标签
- 最后的Explanation表明:树蛙的脸部对于模型预测图片为树蛙有较大重要性
- 表格、图片数据小结
四、文本数据 LIME可解释性分析
- 词袋模型:给定每一个词对应的索引,然后把一句话转化为索引对应的向量 ,作为可解释特征来训练模型
五、选取有代表性的样本
- 下图中每一行代表一个样本,每一列代表一个特征
- 可以观察到样本的特征中f2特征出现了最多次(最重要)
- 我们选择第二行和第五行样本便可以覆盖掉4/5的特征
六、LIME的优缺点
1.优点
- 兼容任意一种机器学习算法
- 特征重要性:解释、理解、信赖、改进(特征工程)
- What-if 场景:如果每个月多挣500元,额度是多少
- 可解释单个样本预测结果、选取代表性样本
- 可人工设计、构造可解释特征(如前文的超像素分割)
2.缺点
- 人工设计、构造的“可解释特征”,不一定科学(如何构造科学的可解释特征是LIME最难的点,也是最容易出彩的点)
- “局部线性”可能无法拟合原模型
- 不同样本,如何计算邻域样本权重(对于“远”、“近”的定义)
- 每个待测样本都需训练对应可解释模型,耗时长
七、LIME改进——自适应距离(OptiLIME)