一、数据探索
数据量
数据缺失情况
描述性统计
特征理解
特征分布
周期性分析
对比分析
相关性分析
训练集和测试集的分布一致性
二、数据预处理
缺失值处理
异常值处理
内存优化
数据增强
欠采样/过采样
三、特征工程
1.ID特征处理
需要考虑训练集和测试集数据拆分方式,如果是按时序拆分,那么ID特征没有办法挖掘
如果是随机拆分,那么ID特征可挖掘,但需要注意,如果模型在业务中用来预测未来,那么ID特征应该舍弃,不能使用未来数据
如果模型仅仅是挖掘已有信息,例如挖掘黑产、预测已有数据的类别,那么可以挖掘ID特征
2.时间特征处理
年月日,时间差,星期
3.类别特征处理
onehot encoding(尽量不用)
label encoding(无序低基数,有序)
target mean encoding(一般用于高基数类别特征,训练集和测试集分布一致时也可用于无序低基数,如果模型上线后用来预测未来,则不能用于有时序性的特征如日期、ID。反欺诈除外)
高基数特征可先按频数编码,也可先合并再target encoding,编码依据:类别中数量越多,则认为target mean越稳定,反之越不稳定,将不稳定的类别进行合并
将数量在1-10的类别进行合并,其余类别进行target mean编码
4.连续特征处理
分箱(等距,等频,自定义)
5.特征变换
零均值
标准化
映射
6.特征构造
自动化特征工程
根据业务与逻辑关系构造
根据数据分析构造
四、特征选择与降维
特征重要性(weight,gain,cover)
LDA
PCA
相关系数
卡方检验
五、模型训练
xgboost
catboost
lightgbm
tabnet
nn
六、模型融合
1.多样性
特征多样性
样本多样性
模型多样性
2.训练过程融合
bagging
boosting
3.训练结果融合
简单平均
几何平均(鲁棒性更好)
stacking
blending
七、评价指标
1.回归
可决系数R^2=1-RSS/TSS,RSS预测值相对于真实值的平方误差,TSS真实值的平方误差
缺点:数据集的样本越大,R²越大,因此,不同数据集的模型结果比较会有一定的误差。
MSE
RMSE
MSE和RMSE对异常值敏感
MAE
MAPE平均绝对百分比误差
MAPE更加鲁棒,对每个点进行了归一化
2.二分类
精度/准确率accuracy=(TP+FN)/(TP+TN+FP+FN)
查准率precision=TP/(TP+FP)
召回率/查全率recall=TP/(TP+FN)
F1查准率与查全率的调和平均
AUC:ROC曲线下的面积,衡量的是正例排在反例前面的概率
AUC=(sum(ranki)-m*(m+1)/2)/(m*n)
ranki是样本预测概率从大到小的排序值,sum(ranki)计算正样本的排序值之和
3.多分类
Accuracy
Precision
Recall
macro-F1宏F1,micro-F1微F1,适用于多次训练/多个数据集,宏F1先计算P和R,再计算P和R的均值;微F1先计算混淆矩阵的均值,再计算P和R。
kappa系数
海明距离
杰卡德相似系数
铰链损失