搜索推荐的主要框架
1.倒排索引召回
1)召回模型有三种:
1.基于行为的召回:根据用户的购买行为推荐相关/相似的商品;(长期行为和实时行为)
2.基于用户偏好的召回:用户画像和多屏互通(移动端到PC端);
3.基于地域的召回;
4.基于搜索词的召回(倒排索引);
2)倒排索引
倒排是指由属性值来确定记录的位置。
倒排索引由单词词典和倒排文件组成,
单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
倒排文件记录所有单词的倒排列表顺序。
好处是在找含有该词的文件时,不需要扫描所有文件,而只需要在单词词典中找到该词,然后找到该词对应的倒排列表即可。
Lucene倒排步骤:
1.取得关键词;
2.建立倒排索引;lucene将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存
3.实现查找。
3)冷启动
1.利用用户注册信息,可以利用人口统计学的一些特征,如性别、国籍、学历、居住地来预测用户的偏好,当然在极度强调用户体验的今天,注册过程的过于繁琐也会影响到用户的转化率,所以另外一种方式更加简单且有效,即利用用户在其他地方已经沉淀的数据进行冷启动,具体方式为利用用户社交网络账号授权登陆,导入社交网站上的好友信息或者一些行为数据,比如QQ音乐就可以通过获取用户在QQ中的浏览信息;
2.制造选项,让用户选择自己感兴趣的点后,即时生成粗粒度的推荐。
3.提供热门内容,类似刚才所介绍的热度算法,将热门的内容优先推给用户。
4.通过用户在时间和地点的上下文来进行实时的预测。
2.规则过滤
如果是商品的话,就过滤掉没有内存,或者是涉及到敏感词汇
3.建立特征:特征会涉及到用户画像,知识图谱
1)用户画像:通过对用户行为及相关场景的分析,构建用户画像,比如包括性别,年龄,购物类型,购买力,消费信用水平等等
4.搜索排序,模型融合:深度学习,在线学习,算法模型
排序学习是一个有监督的机器学习过程,对每一个给定的查询-文档对,抽取特征,通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型,使得输入能够和实际的数据相似。
常用的排序学习分为三种类型: PointWise,PairWise和ListWise。
比较重要的有pairwise里面的RankNet;listwise里面的LambdaRank核LambdaMART.
RankNet:对于每一对pair都会进行一次权重的更新,同一个query下的所有文档pair全部带入神经网络进行前向预测,然后计算总差分并进行误差后向反馈,这样将大大减少误差反向传播的次数。
λi决定着第i个doc在迭代中的移动方向和幅度,真实的排在Ui前面的doc越少,排在Ui后面的doc越多,那么文档Ui向前移动的幅度就越大(实际λi负的越多越向前移动)。这表明每个f下次调序的方向和强度取决于同一Query下可以与其组成relative relevance judgment的“pair对”的其他不同label的文档。
缺点:无法更关注靠前位置的相关文档的排序位置的提升。
LambdaRank是一个经验算法,它不是通过显示定义损失函数再求梯度的方式对排序问题进行求解,而是分析排序问题需要的梯度的物理意义,直接定义梯度,即Lambda梯度。
损失函数的梯度代表了文档下一次迭代优化的方向和强度,由于引入了IR评价指标,Lambda梯度更关注位置靠前的优质文档的排序位置的提升。有效的避免了下调位置靠前优质文档的位置这种情况的发生。
可以看出LambdaMART的框架其实就是MART,主要的创新在于中间计算的梯度使用的是Lambda,是pairwise的。MART需要设置的参数包括:树的数量M、叶子节点数L和学习率v,这3个参数可以通过验证集调节获取最优参数。
5.推荐结果多样化展示:商业规则,推广,打散