目录
一、场景
1. 应用场景
2. feed流资讯应用场景
二. 架构
1. 物理架构
2. 逻辑架构
三、召回算法
1. 用户画像
2. tag热度(tagCtr)
3. LBS/时间轴
4. 关键词标签
5. 主题标签
6. 语义标签
7. 协同过滤
8. SimRank
9. BERT
10. FFM
11. Deep & Wide
四、排序算法
1. LR
2. FM/FFM
3. GBDT+LR
4. XGBOOST
5. DEEPFM
6. DIN
6.1 数据探索
6.2 模型区别
五、策略
1. 二次曝光
2. 规则混排
3. 负反馈
4. 算法降级
5. 兴趣探索
推荐系统从诞生之初,就是为了解决信息过载问题。经过几年发展,已经广泛应用于互联网各大场景中。本文主要从场景、架构、算法和策略四部分展开阐述。
一、场景
1. 应用场景
行业分类 | 场景 | 代表产品 | 优化目标 |
资讯 | 首页feed流资讯推荐 详情页相似推荐 | 今日头条 | ctr、staytime |
电商 | 首页feed流商品和专场推荐推荐 猜你喜欢 商品详情页推荐 加购相似推荐 | 淘宝、京东 | gmv、cvr、ctr |
社交 | 相似好友推荐 | 微信、QQ | uv |
短视频/音乐 | 视频和音乐推荐 | 抖音、网易云音乐 | staytime |
生活服务 | 商家推荐 | 美团点评 | ctr、cvr、gmv |
竞技游戏 | 段位匹配 | 王者荣耀 | 胜率50% |
2. feed流资讯应用场景
二. 架构
1. 物理架构
2. 逻辑架构
三、召回算法
1. 用户画像
2. tag热度(tagCtr)
根据一级tag、二级tag和三级tag选取对应tag下topN(热度)item作为候选集
3. LBS/时间轴
根据位置和时间轴投放当地或最新item
4. 关键词标签
采用tf-idf或word2vec算法提取文本关键词标签,筛选候选集。
5. 主题标签
采用tf-idf或word2vec算法提取文本主题标签,筛选候选集。
6. 语义标签
采用tf-idf或word2vec算法提取文本语义标签,筛选候选集。
7. 协同过滤
8. SimRank
9. BERT
10. FFM
11. Deep & Wide
四、排序算法
1. LR
2. FM/FFM
3. GBDT+LR
4. XGBOOST
5. DEEPFM
6. DIN
6.1 数据探索
Diversity
用户兴趣比较广泛,男性用户对游戏、篮球和财经都感兴趣。
Local activiation
用户当前的点击行为,只与过去某些行为有关,而非所有。如男性点击游戏内容,并不与过去点击篮球和财经有关。如下:
其中,假设用户的兴趣的Embedding是
,候选广告的Embedding是
,用户兴趣和候选的广告的相关性可以写作
。如果没有Local activation机制的话,那么同一个用户对于不同的广告,
都是相同的。举例来说,如果有两个广告A和B,用户兴趣和A,B的相似性都很高,那么在
和
连线上的广告都会有很高的相似性。