数据缺失、错误的原因
- 生产过程中由于业务、算法等复杂,导致数据在收集、加工、保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏;
- 数据的产生都是又人参与在,在整个过程中,由于人为的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,录入时的错别字、统一物体在不同区域、不同系统中名称不同意、前端录入数据时是无效的,或误漏录了数据。
数据缺失、错误的的类别
常规情况霞,缺失、错误的数据可能是完全随机缺失,随机缺失和完全非随机缺失。完全随机缺失、错误指的是数据的缺失、错误是随机的,数据的缺失、错误不依赖于任何不完全变量或完全变量;随机缺失指的是数据的缺失、错误不是完全随机的,这些数据依赖于其他完全变量;完全非随机缺失指的是数据的缺失依赖于不完全变量自身。
从缺失、错误值的所属属性上讲,如果所有的缺失、错误值都是同一属性,那么这种缺失、错误成为单值缺失、错误,如果缺失、错误值属于不同的属性,称为任意缺失。另外对于时间序列类的数据,可能存在随着时间的缺失、错误,这种缺失、错误称为单调缺失。
缺失、错误值的处理方法
对于缺失、错误值的处理,通常采用的方法为补全或删除。对于主观数据,人将影响数据的真实性,存在缺失、错误值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。
1、如果缺失、错误值是个例,通常以删除方式处理;
2、对于复杂的数据,每条记录可能包含几十上百个字段,删除后造成的损失将大于缺失、错误造成的影响,那么这类数据需要插补缺失或修正错误值。