特征少深度学习

转载

mob64ca14116c53 2024-10-27 21:39:39

文章标签 特征少深度学习 ide DNN 泛化 文章分类 深度学习人工智能

基于DNN的推荐算法引入背景

推荐系统的一大挑战是同时具备”记忆能力“和”泛化能力“。
”记忆能力“：学习那些经常同时出现的特征，发觉历史数据中存在的共现特性。
”泛化能力“：基于迁移相关性，探索之前几乎没出现过的新特征组合。

基于嵌入的模型(FM)对之前没出现过的特征具备二阶泛化能力，即为每个query和item特征学习一个低维稠密的嵌入向量。但FM很难有效学习低维表示，当query-item矩阵稀疏且高秩时，稠密嵌入会给所有item-query带来非零预测，可能过度泛化/给出完全不相关的推荐。

Wide&Deep

联合训练一个线性模型组件和一个深度神经网络组件得到Wide&Deep模型，该模型的Wide部分具备记忆能力，Deep部分具备泛化能力。

特征少深度学习_泛化

Wide部分：基础特征和交叉特征构成的线性模型
$特征少深度学习_特征少深度学习_02$
其中，基础特征 $特征少深度学习_特征少深度学习_03$ ，叉乘特征
$特征少深度学习_特征少深度学习_04$

Deep部分：将一些sparse特征(e.g. ID类特征)转换成低维稠密向量，然后和一些原始dense特征一起作为网络的输入；激活函数是Relu的前馈神经网络
$特征少深度学习_ide_05$
其中， $特征少深度学习_DNN_06$ 第l层输入， $特征少深度学习_泛化_07$ 第l层偏置， $特征少深度学习_泛化_08$ 第l层权重， $特征少深度学习_特征少深度学习_09$ 激活函数

Wide&Deep联合预测输出：联合训练的Wide部分只需要作一小部分的特征叉乘来弥补Deep部分的不足，不需要一个full-size 的wide 模型。在论文中，作者通过梯度的反向传播，使用 mini-batch stochastic optimization 训练参数，并对wide部分使用带L1正则的Follow- the-regularized-leader (FTRL) 算法，对deep部分使用 AdaGrad算法。
$特征少深度学习_ide_10$
其中， $特征少深度学习_ide_11$ 是NN最后一层激活值。