02-06 LS-PLM
思维导图纲要
LS-PLM(Large Scale Piece-wise Linear Model,大规模分段线性模型)。这个是本书的最后一例机器学习模型。原因有二:该模型在2012年已经是阿里巴巴主流的推荐模型,2017年才被公之于众;其结构与三层神经网络极其相似。
LS-PLM模型的主要结构
LS-PLM, 又被称为 MLR( Mixed Logistic Regression, 混合逻辑回归)模型。本质上,LS-PLM 可以看作对逻辑回归的自然推广,它在逻辑回归的基础上采用分而治之的思路,先对样本进行分片,再在样本分片中应用逻辑回归进行 CTR预估。
文中给了一个例子:如果CTR(点击率)模型要预估的是女性受众点击女装广告的 CTR;那么显然,我们不希望把男性用户点击数码类产品的样本数据也考虑进来,因为这样的样本(指男性数码类产品)不仅与女性购买女装的广告场景毫无相关性,甚至会在模型训练过程中扰乱相关特征的权重。
为了让 CTR 模型对不同用户群体、不同使用场景更有针对性,其采用的方法是先对全量样本进行聚类,再对每个分类施以逻辑回归模型进行 CTR 预估。
LS-PLM 的数学形式如(式 2-23 )所示,首先用聚类函数π 对样本进行分类(这里的π采用了softmax 函数对样本进行多分类),再用 LR 模型计算样本在分片中具体的 CTR 然后将二者相乘后求和。
softmax:一句话概括,是将多分类的结果以概率的形式展现出来,比如下图中三个值转换为概率0.88, 0.12, 0。文末有参考文献[1]。而公式中π(x)或就是softmax函数。
后面的公式或是LR(逻辑回归模型),是所有的特征*权重之和,是sigmoid函数。
其中的超参数“分片数”m可以较好地平衡模型的拟合与推广能力。当 m=1时,LS-PLM 就退化为普通的逻辑回归。w 越大,模型的拟合能力越强,需要的训练样本也越多。
LS-PLM模型的优点
( 1 ) 端到端的非线性学习能力:LS-PLM 具有样本分片的能力,因此能够挖掘出数据中蕴藏的非线性模式,省去了大量的人工样本处理和特征工程的过程,使 LS-PLM 算法可以端到端地完成训练,便于用一个全局模型对不同应用领域、业务场景进行统一建模。
( 2 ) 模型的稀疏性强:LS-PLM 在建模时引人了 L1 和 L2,1范数,可以使最终训练出来的模型具有较高的稀疏度,使模型的部署更加轻量级。模型服务过程仅需使用权重非零特征,因此稀疏模型也使其在线推断的效率更高。
基础知识一为什么L1 范数比 L2 范数更容易产生稀疏解?见文末参考文献[2,3]
从深度学习的角度重新审视 LS-PLM 模型
LS-PLM 可以看作一个加人了注意力 Attention )机制的三层神经网络模型,其中输人层是样本的特征向量,中间层是由 m 个神经元组成的隐层,其中m是分片的个数,对于一个 CTR 预估问题,LS-PLM 的最后一层自然是由单一神经元组成的输出层。
那么,注意力机制又是在哪里应用的呢?其实是在隐层和输出层之间,神经元之间的权重是由分片函数得出的注意力得分来确定的。也就是说,样本属于哪个分片的概率就是其注意力得分。
参考文献
- 一分钟理解softmax函数(超简单)
- L1正则为什么更容易获得稀疏解
- L1为什么具有稀疏性