有序回归(Ordinal Regression)

序数回归建模的是有序输出,离散但是有顺序的类别。当一个连续的变量在观测的时候被设限时就会产生序数输出的结果。例如:当征求个人意见,但是结果却限制为离散的类别如 “不同意”、“未确定” 和 “同意”。

建模过程

许多经典的建模类别数据的方法都假设类别是无序的,因此相应的概率是可以交换的。然而,有序类别的排序会导致一致统计模型的所需的特定相关性。特别的,相邻类别之间概率需要比遥远的类别之间的相关性要高。

一个实现这种必要结构的方法是假设一个由连续隐变量组成的模型,对该隐变量进行限制即可导出叙述概率。这个隐变量只是一种构建具有期望相关性概率分布的一种方式,并不需要用来解释真实数据的生成过程。

一旦具有了构建概率分布的过程,我们便可以引入潜在的影响来连续的调整这些概率。

进行切割

假设隐变量分布空间为有序回归 深度学习 有序变量回归_回归 ,概率分布密度函数为有序回归 深度学习 有序变量回归_数据挖掘_02,通过三个cut points,有序回归 深度学习 有序变量回归_数据挖掘_03有序回归 深度学习 有序变量回归_概率分布_04分割成两个区间,在这里有序回归 深度学习 有序变量回归_数据挖掘_05,有序回归 深度学习 有序变量回归_数据挖掘_06在中间,控制有序回归 深度学习 有序变量回归_概率分布_04的分布情况,如下图所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ftdS5NXN-1641381160713)(解决的问题记录-2021.assets/image-20220105174926195.png)]

可以通过累计概率分布函数的差来计算相应的概率:

有序回归 深度学习 有序变量回归_回归_08

有序回归 深度学习 有序变量回归_机器学习_09

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vJXsmuvT-1641381160714)(解决的问题记录-2021.assets/image-20220105175225170.png)]

很容易把上面的过程扩展到多段的情况,使用有序回归 深度学习 有序变量回归_机器学习_10个有序的cut points可以把有序回归 深度学习 有序变量回归_概率分布_04分割成有序回归 深度学习 有序变量回归_有序回归 深度学习_12份,从而可以使用如下公式计算出有序回归 深度学习 有序变量回归_有序回归 深度学习_12个有序概率:

有序回归 深度学习 有序变量回归_回归_14

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ENIxB7D0-1641381160714)(解决的问题记录-2021.assets/image-20220105175525891.png)]

此时完整的序数模型为:

有序回归 深度学习 有序变量回归_有序回归 深度学习_15

上述构建过程对于任何关于有序回归 深度学习 有序变量回归_概率分布_04的分布都成立,可以通过配置内部的切割点来实现任何期望的序数概率,通常可以考虑累积分布的计算复杂度来选择合适的关于有序回归 深度学习 有序变量回归_概率分布_04的概率分布。

当选择如下式所示的逻辑概率密度函数时:

有序回归 深度学习 有序变量回归_有序回归 深度学习_18

其累计分布函数为sigmoid函数:

有序回归 深度学习 有序变量回归_机器学习_19

此时定义为 ordinal logistic或者ordered logistic,如果概率密度函数选择高斯分布,则称为 ordinal probit或者ordered probit。

Cut to the Feeling

如何来建模潜在因素对序数概率的影响呢?特别的,假设潜在因素记为有序回归 深度学习 有序变量回归_有序回归 深度学习_20,和较大的序数输出结果有关,问题的关键在于如何设计模型,使得当有序回归 深度学习 有序变量回归_概率分布_21的时候把概率分布拉向较大的序数输出结果,当有序回归 深度学习 有序变量回归_概率分布_22时,把概率分布拉向较小的序数输出结果。

实际上可以通过把有序回归 深度学习 有序变量回归_机器学习_23来实现:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fb1A3nph-1641381160715)(解决的问题记录-2021.assets/image-20220105185812102.png)]

由于潜在空间平移和切割点之间的这种等价性,在这种结构中,序数概率只告知有序回归 深度学习 有序变量回归_有序回归 深度学习_20 和切割点的相对位置。当对和切割点联合建模时,这导致观测模型中的不可辨识性和产生的似然函数中的强退化(个人理解为多组不同的有序回归 深度学习 有序变量回归_有序回归 深度学习_20和cut points可能代表同一个结果,比如有序回归 深度学习 有序变量回归_有序回归 深度学习_20、cut points和有序回归 深度学习 有序变量回归_概率分布_27有序回归 深度学习 有序变量回归_概率分布_28)。为了防止这些退化从已实现的似然函数传播到相应的后验分布,我们必须小心地将有序回归 深度学习 有序变量回归_有序回归 深度学习_20、切割点,或者甚至两者都锚定到先验模型中的一些基线值。

一个更好的方法是完全避免对任何基线有序回归 深度学习 有序变量回归_有序回归 深度学习_20建模,而是使用这种构造来对跨不同环境的有序回归 深度学习 有序变量回归_有序回归 深度学习_20中的异构性建模。例如,考虑亲和本身受外部协变量的影响,有序回归 深度学习 有序变量回归_回归_32。截距有序回归 深度学习 有序变量回归_回归_33不是从切割点确定的,因此不是真正定义明确的。理想情况下,我们将完全放弃截距,只对协变量依赖关系建模,有序回归 深度学习 有序变量回归_机器学习_34

参考链接:Ordinal Regression (betanalpha.github.io)