基础准备
一、风控建模分类
- 授信类建模
- 反欺诈建模
二、反欺诈建模和授信建模的不同
- 什么是欺诈?什么是反欺诈?这一切都是由业务场景所决定。
- 反欺诈底层是什么?不仅要与相类似的数据比较,还需要与自己相比较。也即是说反欺诈的核心是在寻找与欺诈相似的同时,寻找“正常”中的异常。
- 怎么做?有监督,无监督,策略。
三、无监督
- 图算法模型(社交网络算法、知识图谱等)
- 图数据库(审核策略使用)
四、有监督
- 确定欺诈场景。发生了什么?怎么发生?为什么发生?
- 业务很重要。
- 特征工程也很重要。
变量选择
一、图数据库
- 唯一且有识别度的变量,如身份证,联系人+联系人联系方式+地区组合等。
- 特定时间内唯一且可识别的变量,如手机号,通讯地址等。
- 客户id等内部专用的唯一可识别变量不可用。
- 模糊匹配,关联,如gps定位,ip地址等。
- 词汇关联,如工作单位等。
二、有监督学习的变量选择
- 绝对不能用的变量
- 由因变量映射得到的变量
- 内部环境才存在的变量,如客户id
- 建模时存在,未来确定不会存在的变量(业务)
- 不稳定的变量,绝大部分为空值,且bad与good分布差异不大的变量(特征工程)
- 模型使用效果不好,策略可以使用的变量
- 过去存在,将来存在,但截止建模为止大部分客户数据中不存在的变量
- 不稳定的变量,绝大部分为空值,且bad与good分布差异很大的变量(特征工程)
- 业务上强关联但iv并不高的变量怎么使用
- 在确定现时模型表现的基础上,再尝试加入。
- 对于未来预测影响很大的变量。
什么是异常?
- 人为制造的异常不是异常。
- 业务可以解释的异常值并不异常。
- 异常:离群值,空值,与其他值显然不同的值,业务不可解释的值
- 异常值处理
- 替代
- 归一化、标准化、log transfer等
- 异常极值做dummy transfer
天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要