除非您要使用的数据符合特定的标准,否则数据挖掘将不会有什么成效。以下章节讲述了有关数据及其应用中值得您注意的一些问题。
数据是否可用?
这看起来好像是一个非常明显的问题,但值得注意的是:尽管数据可能可用,但其形式可能并不易于使用。可以从数据库(通过 ODBC)或文件导入数据。但是,数据可能在计算机上以某种其他形式保存,而无法直接访问。因此在使用之前,需要以某种合适的形式对其进行下载或转储。数据还可能散落于各种不同的数据库和源中,需要把它们放在一起。甚至这些数据可能不是在线的。如果数据只存在于纸面上,则首先需要进行数据录入,然后才能开始数据挖掘。
数据是否包含相关的属性?
数据挖掘的目的是为了确定相关属性,因此这看起来好像是一个奇怪的问题。但是,查看哪些数据可用并尝试确定可能相关但未记录的因素,这点非常有用。例如,尝试预测冰淇淋销售情况时,您可能有很多零售销路或销售历史的相关信息,但您可能没有关于天气和温度信息,而这些信息很可能十分重要。缺少属性不一定意味着数据挖掘无法产生有用的结果,但可能会限制所生成预测的准确性。
评估这种情况的一种快速方式是对数据执行全面的审核。开始审核之前,请将一个数据审核节点与数据源相连,并执行该节点以生成一个完整的报告。 请参阅 数据审核节点 以了解详细信息。
数据是否有噪声?
数据通常包含错误,也可能包含主观因素,因此可能存在偏差、臆断。这些现象统称为噪声。有时数据中的噪声是正常的。其中可能存在正常的潜在规则,但可能不涵盖 100% 的观测值。
通常情况下,数据中的噪声越多,越难获得准确结果。但 Clementine 的机器学习方法能够处理噪声数据,并且已经成功处理了包含将近 50% 噪声的数据集。
数据是否足够?
在数据挖掘中,数据集的大小并不一定非常重要。数据集的代表性,以及它对可能结果和变量组合的覆盖范围,这些要重要得多。
通常情况下,考虑的属性越多,需要提供代表性的涉及范围的记录越多。
如果数据具有代表性并且存在通用潜在规则,可能几千个(甚至几百个)记录的数据样本能够提供与一百万个记录同样好的结果 - 并且您获得结果的速度要快很多。
是否具有针对可用数据的专业知识?
在很多情况下,您都是针对自己的数据进行操作,因此对其内容和意义非常熟悉。但如果您要对组织中其他部门的数据进行操作,或对客户的数据进行操作,则拥有了解这些数据的专家会大有帮助。这些专家可以指导您确定相关的属性,帮助您解释数据挖掘的结果,并从信息的“黄沙”中淘出“真金”或通过数据集的异常值探得“珍宝”。