定义
连续特征离散化是采取各种方法将连续的区间划分为小的区间,并将这连续的小区间与离散值关联起来。连续特征离散化的本质是:决定选择多少个分割点和确定分割点的位置。

背景
连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程,比如在LR模型,由于是广义线性模型表达能力有限,因此通过特征离散化来了提高非线性学习能力

步骤
1.对连续特征值按照某种指定的规则进行排序
2.初步确定连续属性的划分断点
3.按照某种给定的判断标准继续分割断点或合并断点
4.如果第三步得到判断标准的终止条件,则终止整个连续特征离散化的过程,否则继续 按第三步执行
主要方法
等距离散
取值范围均匀划成n等份,每份的间距相等

等频离散
均匀分为n等份,每份内包含的观察点数相同

优化离散
大致有两类方法:
1. 卡方检验方法:(统计样本的实际观测值与理论推断值之间的偏离程度,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合)
– 分裂方法:找到一个分裂点看,左右2个区间,在目标值上分布是否有- 显著差异,有显著差异就分裂,否则就忽略。这个点可以每次找差异最大的点
– 合并方法:先划分如果很小单元区间,按顺序合并在目标值上分布不显著的相邻区间,直到收敛
2. 信息增益方法:
– 分裂方法:找到一个分裂点看,左右2个区间,看分裂前后信息增益变化阈值,如果差值超过阈值(正值,分列前-分裂后信息熵),则分裂。每次找差值最大的点做分裂点,直到收敛
– 合并方法:先划分 如果很小单元区间,按顺序合并信息增益小于阈值的相邻区间,直到收敛

优点
1. 易于模型的快速迭代
2.稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展
3.离散化后的特征对异常数据有很强的鲁棒性
4 提升了逻辑回归模型的表达能力,加大拟合
5.模型更稳定
6.简化逻辑回归模型,降低其过拟合风险 没有任何离散化算法可以适用于任何环境下,在实际应用时需要根据数据集的特点和学 习环境等选择合适的离散化方法, 而关联规则分析中的离散化既需要考虑各特征间的内在联 系,又需要考虑在没有类信息的情况下对数据集进行有效的离散化。