2019.5.21
- 你理解什么是数据挖掘?
数据挖掘就是由数据准备,数据挖掘和对结果的解释评估三部分组成。数据准备包括数据选取,数据预处理和数据变化。数据挖掘部分包括确定挖掘的任务或目的,选择挖掘算法。最后将结果可视化或者转化为易于理解的形式。 - 为什么会产生过拟合,有哪些方法可以预防或克服过拟合?(常问问题)
所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。
过拟合产生的原因:出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
解决方法:
1、 增大数据量
2、 减少feature个数(人工定义留多少个feature或者算法选取这些feature)
3、 正则化(留下所有的feature,但对于部分feature定义其parameter非常小)
4、 交叉验证,重采样评价模型效能,K折交叉验证
5、 保留一个验证数据集检验
几乎所有集成模型都是为了防止过拟合的。 - tree-base模型是否了解,决策树和随机森林区别是什么,树节点的分裂都有哪些策略
随机森林是很多棵决策树组成的,一定程度上能避免过拟合问题。
树节点分裂:
- ID3 : 以信息增益大小来建立。
- C4.5 :以信息增益率大小来建立。
- CART:以基尼系数大小来建立。
决策树的数据最好是离散型的吧?
ID3和C4.5是分类型决策树,只处理离散型的,CART是分类回归都可以做的决策树,支持所有类型。
- 特征怎么选择?
直接性的(性别,教育)
不同类方差最大化,类间方差最小。不同类相关系数最小化分类。 - 分析原因,某产品6月份的平均日活率比7月多很多,请问你会从哪几方面分析?回答 思路+方法(以某个信用app为例)。 (银行)
1、活动原因
(1)分析参与活动的用户的后续行为
(2)分析未参与活动的用户的同一时间的行为
(3)对比以上两数据趋势,如果发现(1)和(2)有明显不同的趋势(如1骤降),那可能是活动的原因
2、功能改版
(1)与往期用量对比
3、当期贷款需求变化(不好定,需要专业分析)
4、历史同期趋势对比(多个因素组合,可能说服力不强,但是大致可以看下趋势) - 样本不平衡处理方法?(好多次)
a、负样本少,就复制到一定比例
b、或者把正样本删除一部分
c、分段逐一训练(举例:正样本10000,负样本1000,将正样本随机分成10份,每份1000,然后拿着负样本的1000与正样本的每一份进行训练,最后进行融合选择)
d、模型参数调权重(模型里面有个参数可以调整样本权重)
e、交叉验证
f、根据样本随机构造新的样本 - 连续值转换为离散值,有什么办法,比如年龄?(好多次)
根据业务知识区分
根据pandas下面qcut和cut方法进行等频或等宽处理
风控中 可以根据woe和iv 或者卡方检验
用聚类来做最优化尺度 - 现金贷团伙作案,你有什么算法或方法去识别
从规则角度上讲:可以从ip,通讯录共同联系人,设备指纹等信息上分析。
从模型角度讲:根据上面的特征,可以通过聚类来分群。 - 你在建模过程中遇到过什么困难?(很多次)
样本不平衡问题(然后回答解决办法),样本过拟合问题(然后回答解决办法),准确率不高(结合更换特征,模型调参,换模型等思路回答) - 关于风控的指标?
woe和iv公式,评分卡原理
附原文链接:
关于数据库的 - 数据库外键的作用
联表查询 - 主键重复插入更新
在插入数据中,遇到键重复避免插入重复值的办法。
1.ignore:当插入的值遇到主键(PRIMARY KEY)或者唯一键(UNIQUE KEY)重复时自动忽略重复的记录行,不影响后面的记录行的插入
使用:insert ignore into 表 values (1,1),(1,2),(2,2)
2.replace: 使用replace当插入的记录遇到主键或者唯一键重复时先删除表中重复的记录行再插入。
使用:replace into 表 values (1,1),(1,2),(2,2)
3.on duplicate key update
当插入的记录遇到主键或者唯一键重复时,会执行后面定义的UPDATE操作。相当于先执行Insert 操作,再根据主键或者唯一键执行update操作。
具体: 使用:insert into 表 values (1,1),(1,2) on duplicate key update name=name+1
- 什么情况下索引会失效,假设字段A加了索引
- 有什么sql调优的手段