单个条件期望 (ICE) 图为每个实例显示一条线,显示当特征发生变化时实例的预测如何变化。
特征平均效果的部分依赖图是一种全局方法,因为它不关注特定实例,而是关注整体平均值。 单个数据实例的 PDP 等效项称为单个条件期望 (ICE) 图(Goldstein 等人,2017)。 ICE 图分别可视化预测对每个实例的特征的依赖性,导致每个实例一条线,而部分依赖图中的一条线整体。 PDP 是 ICE 图线的平均值。 一条线(和一个实例)的值可以通过保持所有其他特征相同来计算,通过用网格中的值替换特征值来创建此实例的变体,并使用黑盒模型对这些新创建的实例进行预测。 结果是具有来自网格的特征值和相应预测的实例的一组点。
着眼于个人期望而不是部分依赖有什么意义? 部分依赖图可以掩盖由交互作用产生的异质关系。 PDP 可以显示特征和预测之间的平均关系是什么样的。 这只适用于计算 PDP 的特征与其他特征之间的相互作用较弱的情况。 在交互的情况下,ICE 图将提供更多的洞察力。
更正式的定义:在 ICE 图中,对于每个实例 { ( x S ( i ) , x C ( i ) ) } i = 1 N \{(x_{S}^{(i)},x_{C}^{(i)})\}_{i=1}^N {(xS(i),xC(i))}i=1N曲线 f ^ S ( i ) \hat{f}_S^{(i)} f^S(i)被策划反对 x S ( i ) x^{(i)}_{S} xS(i), 尽管 x C ( i ) x^{(i)}_{C} xC(i)保持固定。
5.3.1 例子
让我们回到宫颈癌数据集,看看每个实例的预测如何与特征“年龄”相关联。 我们将分析一个随机森林,该森林在给定风险因素的情况下预测女性患癌症的概率。 在部分依赖图中,我们看到癌症概率在 50 岁左右增加,但数据集中的每个女性都是这样吗? ICE 图显示,对于大多数女性而言,年龄效应遵循 50 岁时增加的平均模式,但也有一些例外:对于少数在年轻时具有高预测概率的女性,预测的癌症概率不会改变 随着年龄的增长。
图 5.8:按年龄划分的宫颈癌概率的 ICE 图。 每条线代表一个女人。 对于大多数女性来说,随着年龄的增长,预测的癌症概率会增加。 对于一些预测癌症概率高于 0.4 的女性,预测在较高年龄时不会发生太大变化。
下图显示了自行车租赁预测的 ICE 图。 底层预测模型是随机森林。
图 5.9:按天气条件预测的自行车租赁的 ICE 图。 可以观察到与部分依赖图中相同的效果。
所有曲线似乎都遵循相同的路线,因此没有明显的相互作用。 这意味着 PDP 已经很好地总结了显示的特征和预测的自行车数量之间的关系。
5.3.1.1 中心ICE图
ICE 图存在一个问题:有时很难判断 ICE 曲线是否因人而异,因为它们开始于不同的预测。 一个简单的解决方案是将曲线集中在特征中的某个点,并仅显示与该点的预测差异。 结果图称为中心 ICE 图 (c-ICE)。 将曲线锚定在特征的下端是一个不错的选择。 新曲线定义为: f ^ c e n t ( i ) = f ^ ( i ) − 1 f ^ ( x a , x C ( i ) ) \hat{f}_{cent}^{(i)}=\hat{f}^{(i)}-\mathbf{1}\hat{f}(x^{a},x^{(i)}_{C}) f^cent(i)=f^(i)−1f^(xa,xC(i))
1 \mathbf{1} 1是具有适当维数(通常为一或二)的 1 向量, f ^ \hat{f} f^是拟合模型,xa 是锚点。
5.3.1.2 例子
例如,取年龄的宫颈癌 ICE 图,并将线集中在观察到的最年轻的年龄上:
图 5.10:按年龄预测癌症概率的中心 ICE 图。 线在 14 岁时固定为 0。与 14 岁相比,大多数女性的预测保持不变,直到 45 岁时,预测概率增加。
居中的 ICE 图可以更轻松地比较各个实例的曲线。 如果我们不想看到预测值的绝对变化,而是希望看到预测与特征范围的固定点相比的差异,这会很有用。
让我们看一下自行车租赁预测的中心 ICE 图:
图 5.11:按天气条件预测的自行车数量的中心 ICE 图。 这些线显示了预测与各自特征值处于其观察到的最小值的预测相比的差异。
5.3.1.3 导数 ICE 图
另一种在视觉上更容易发现异质性的方法是查看预测函数相对于特征的各个导数。 结果图称为导数 ICE 图 (d-ICE)。 函数(或曲线)的导数告诉您变化是否发生以及发生的方向。 使用导数 ICE 图,很容易发现特征值的范围,其中(至少一些)实例的黑盒预测会发生变化。 如果分析的特征之间没有交互作用 x S x_S xS和其他功能 x C x_C xC,那么预测函数可以表示为: f ^ ( x ) = f ^ ( x S , x C ) = g ( x S ) + h ( x C ) , with δ f ^ ( x ) δ x S = g ′ ( x S ) \hat{f}(x)=\hat{f}(x_S,x_C)=g(x_S)+h(x_C),\quad\text{with}\quad\frac{\delta\hat{f}(x)}{\delta{}x_S}=g'(x_S) f^(x)=f^(xS,xC)=g(xS)+h(xC),withδxSδf^(x)=g′(xS)
如果没有交互作用,所有实例的各个偏导数应该是相同的。 如果它们不同,则是由于相互作用,它在 d-ICE 图中变得可见。 除了显示相对于 S 中特征的预测函数导数的单个曲线之外,显示导数的标准偏差有助于突出 S 中特征中的区域以及估计导数的异质性。 导数 ICE 图需要很长时间来计算,而且相当不切实际。
5.3.2 优势
单个条件期望曲线比部分依赖图更容易理解。 如果我们改变感兴趣的特征,一条线代表对一个实例的预测。
与部分依赖图不同,ICE 曲线可以揭示异质关系。
5.3.3 劣势
ICE 曲线只能有意义地显示一个特征,因为两个特征需要绘制多个重叠曲面,并且您在图中看不到任何内容。
ICE 曲线与 PDP 存在相同的问题:如果感兴趣的特征与其他特征相关,那么根据联合特征分布,线条中的某些点可能是无效数据点。
如果绘制了许多 ICE 曲线,则绘图可能会变得过于拥挤,您将看不到任何内容。 解决方案:要么为线条添加一些透明度,要么仅绘制线条样本。
在 ICE 图中,查看平均值可能并不容易。 这有一个简单的解决方案:将单个条件期望曲线与部分依赖图相结合。
5.3.4 软件和替代品
ICE 图在 R 包 iml(用于这些示例)、ICEbox32 和 pdp 中实现。 另一个与 ICE 非常相似的 R 包是 condvis。 在 Python 中,从 0.24.0 版本开始,部分依赖图被内置到 scikit-learn 中。