我们定义并开放了预测能力得分(PPS)。 PPS是可以在数据中找到更多模式的关联的替代方法。

  相关性有太多问题

  现在是星期五下午,您的老板告诉您,数据传递令人惊讶地提前到来了-来回仅4周。 这是您的预测模型缺少的部分。 您很兴奋,但也有点着急,因为您知道接下来的事情:浏览数据。 所有。 45.列。 这将花费许多小时,但您知道这是值得的,因为如果没有数据了解,您就会失明。 一个显而易见的步骤是查看所有单变量列分布。 但这还不够。

  您问自己:列之间存在什么关系?

  要回答这个问题,您只需重复典型的练习即可:计算相关矩阵并检查一些令人惊讶的关系。 每当您感到惊讶时,您都花一点时间绘制手头两列的散点图,看看您是否可以理解。 希望您可以,但通常却不能,因为您根本不知道这些列的含义。 但这是另一天的故事。

  在检查了相关矩阵之后,您继续前进,甚至不知道自己不知道的(可怕的)。

  我们花一点时间来回顾一下相关性。 分数在-1到1之间,表示是否存在强线性关系(正向还是负向)。 到现在为止还挺好。 但是,分数根本无法检测到许多非线性关系。 例如,窦波,二次曲线或神秘阶跃函数。 分数将是0,表示:"这里没什么有趣的"。 同样,仅为数字列定义相关性。 因此,让我们删除所有类别列。 在我的上一个项目中,超过60%的列是分类的,但是,嘿。 没关系。 不,我不会转换这些列,因为它们不是序数,并且OneHotEncoding将创建一个矩阵,该矩阵具有比宇宙中原子更多的值。

  

pems数据集介绍说明 pps数据集_决策树

  > Too many scenarios where the correlation is 0. This makes me wonder if I missed something… (Excer

  如果您受过良好的教育,您会知道相关矩阵是对称的。 因此,您基本上可以扔掉一半。 太好了,我们在那里节省了一些工作! 还是我们? 对称性意味着无论您计算A与B的相关性还是B与A的相关性,相关性都是相同的。但是,现实世界中的关系很少是对称的。 关系经常是不对称的。 这是一个例子:上次检查时,我的邮政编码60327告诉陌生人我住在德国法兰克福。 但是,当我只告诉他们我的城市时,他们却永远无法推断出正确的邮政编码。 PFF…业余爱好者。 另一个例子是:具有3个唯一值的列将永远无法完美预测具有100个唯一值的另一列。 但是事实可能恰恰相反。 显然,不对称很重要,因为它在现实世界中非常普遍。

  考虑到相关性的那些缺点,我开始怀疑:我们可以做得更好吗?

  要求:去年的一天,我梦见一个分数,该分数将告诉我两列之间是否存在任何关系-无论该关系是线性,非线性,高斯还是仅被外星人知道。 当然,分数应该是不对称的,因为我想检测城市和邮政编码之间的所有奇怪关系。 如果没有关系,则分数应为0;如果存在完美的关系,则分数应为1。 锦上添花的是,该分数应该能够立即解决分类和数字列的问题。 为我所有的学术朋友总结一下:两个列之间的预测关系的不对称,数据类型不可知分数,范围从0到1。

  计算预测能力得分(PPS)

  首先,没有一种唯一的方法来计算预测能力得分。 实际上,有许多种方法可以计算出满足前面提到的要求的分数。 因此,我们宁可将预测能力得分视为一系列得分的框架。

  假设我们有两列,并且想要计算A预测B的预测能力得分。在这种情况下,我们将B作为目标变量,将A作为我们的(唯一)特征。 现在,我们可以计算交叉验证的决策树,并计算合适的评估指标。 当目标是数字时,我们可以使用决策树回归器并计算平均绝对误差(MAE)。 当目标是分类时,我们可以使用决策树分类器并计算加权F1。 您也可以使用ROC等其他分数,但由于我们还有另一个问题,让我们将这些疑问搁置一秒钟。

  如果不将其与基准进行比较,大多数评估指标将毫无意义。

  我想大家都知道这种情况:您告诉奶奶您的新车型F1得分为0.9,所以她不像您那样兴奋。 实际上,这对她来说是非常聪明的,因为她不知道有人能得分0.9还是您是成千上万了不起的KAGGLErs尝试过后第一个得分超过0.5的人。 因此,我们需要"标准化"我们的评估分数。 您如何标准化分数? 您定义一个上限和下限,然后将分数记入透视图。 那么下限和上限应该是多少? 让我们从上限开始,因为通常这比较容易:理想的F1是1。理想的MAE是0。 做完了 但是下限呢? 实际上,我们不能绝对地回答这个问题。

  下限取决于评估指标和您的数据集。 这是天真的预测器实现的价值。

  如果您的F1分数达到0.9,则可能会非常糟糕或非常好。 如果您的超级癌症检测模型始终预测为"良性",并且在该高度偏斜的数据集上仍得分为0.9,则显然不是那么好。 因此,我们需要为一个非常幼稚的模型计算分数。 但是什么是天真的模型? 对于分类问题,总是预测最普通的类是非常幼稚的。 对于回归问题,始终预测中位数非常幼稚。

  让我们看一个详细的虚构示例:

  回到邮政编码和城市名称的示例。 想象两列都是分类的。 首先,我们要计算到城市的邮政编码的PPS。 因为城市是分类的,所以我们使用加权F1分数。 我们的经过交叉验证的决策树分类器得分为0.95 F1。 我们通过始终预测最常见的城市并获得0.1 F1的分数来计算基线分数。 如果对分数进行归一化,则应用以下归一化公式后,最终的PPS将为0.94:(0.95-0.1)/(1-0.1)。 正如我们所看到的,PPS得分为0.94相当高,因此邮政编码似乎对城市具有良好的预测能力。 但是,如果我们在相反方向上计算PPS,则可能会获得接近0的PPS,因为决策树分类器并不比总是预测最常用的邮政编码好得多。

  请注意:MAE的归一化公式与F1不同。 对于MAE,越低越好,最佳值为0。

  将PPS与相关性进行比较

  为了更好地了解PPS及其与相关性之间的差异,我们来看以下两个示例:

  示例1:非线性效应和不对称

pems数据集介绍说明 pps数据集_机器学习_02

  > Example 1: Comparison of Correlation to PPS for y=x2

  让我们使用一种典型的二次关系:特征x是一个统一变量,范围是-2到2,目标y是x的平方加上一些误差。 在这种情况下,x可以很好地预测y,因为存在明显的非线性二次关系-毕竟这就是我们生成数据的方式。 但是,这在从y到x的另一个方向上是不正确的。 例如,如果y为4,则无法预测x大约为2还是-2。 因此,预测关系是不对称的,得分应反映这一点。