斯坦佛大学统计系及线性加速中心
1 序言
什么是数据挖掘?
什么是统计?
它们之间的联系是什么(如果有的话)?
统计学家能作什么?(可能的话)
未来走向何方?
2 什么是数据挖掘?
数据挖掘是...
.决策树
.神经网络
.规则推断
.最近邻方法
.遗传算法
--Mehta
硬件制造商强调数据挖掘需要高的计算能力。必须存储,快速读写非常大的数据库,并将密集的计算方法用于这些数据。这需要大容量的磁盘空间,快速的内置大量R AM的计算机。数据挖掘为这些硬件打开了新的市场。
IBM: `Intelligent Miner` '智能矿工'
Tandem: 'relational Data Miner' '关系数据矿工'
AngossSoftware: 'KnowledgeSEEDER' `知识搜索者`
Thinking Machines Corporation: 'DarwinTM'
NeoVista Software: 'ASIC'
ISL Decision Systems,Inc.Inflatable Castle 'Clementine'
Silicon Graphics: 'MineSet' ` Inflatable Slide :
California Scientific Inflatable ToysSoftware: 'BrainMaker'
WizSoft Corporation: 'WizWhy'
Lockheed Corporation: 'Recon'
SAS Corporation: 'SAS Enterprise Miner '
当前数据挖掘产品的特点有:
--迷人的图形用户界面
.数据库(查寻语言)
.一套数据分析过程
--窗口形式的界面
.灵活方便的输入
--点击式按键和输入对话框
--利用图表分析
--复杂的图形输出
--大量数据图
--灵活的图形解释
树,网络,飞行模拟
-- 结果方便的处理。
这些软件包对决策者来说就象数据挖掘专家。
在当前的数据挖掘软件包中被用到的统计分析过程包括:
.决策树推断(C4.5,CART,CHAID)
.规则推断(AQ,CN2,RECON,etc)
.最近邻方法(合乎情理的方案)
.聚类方法(数据分离)
.联合规则(购物篮分析)
.特征抽取
.可视化
另外,有些还包括:
.神经网络
.贝叶斯信念网络(图形模型)
.遗传算法
.支持向量机
.自组织图
.神经模糊系统
几乎所有包都不包括:
.假设检验
.实验设计
.响应表面模型
.ANOVA,MANOVA,etc.
.线性回归
.判别分析
.对数回归
.广义线性模型
.正则相关性
.主成分分析
.因子分析
后面的这些过程是标准统计包里的主要部分。因此,当前被市场化的数据挖掘包中的大部分方法在统计学科之外产生和发展。统计学核心的方法已被忽略。
最近,数据库管理界对将数据库管理系统用于决策支持越来越感兴趣。这样一个决策支持系统将允许对原本为在线转换过程应用收据的数据进行统计查询。比如` 上月我们的所有连锁店一共卖了多少尿布?`,决策支持系统需要`数据仓库`的结构。数据仓库用相同的格式将某组织分散在各个部门的数据统一成一个单一的中心数据库(通常有1 00GB大)。有时较小一点的子数据库也可以建成来进行特殊的分析;这些又叫`数据市场`(Data Marts)
.显示春季运动服部门总的销售量,及California大城市商业街中商店数
.和小城市中商店进行比较
.显示所有利润边界值为负的项
数据挖掘也可以用数据挖掘系统(软件)进行,它只需要使用者提供模糊的指令,就能自动搜索相应的模式,并显示重要的项,预测,或反常记录。
.如果决定开发某项产品的市场-预测它的利润边界值
.寻找那些其利润边界值可以准确预测的项的特征
不是所有的大的数据库都是商业化的,比方说科学和工程中大量存在的数据库。这些数据库通常和计算机自动收据数据联系在一起,比方说:
.天文的(天空图)
.气象的(气候,环境污染监测站)
.卫星遥感
.高能物理
.工业过程控制
这些数据也能得益于数据挖掘技术(原则上)
.集聚体(ROLAP)的高效计算
.快速的立体(X * X)查寻
.为提高在线查寻的速度的线下预查寻
.在线查寻的并行计算
.将DBMS方法转化为数据挖掘算法。
.基于磁盘而不是RAM的实现
.基本数据挖掘算法的并行实现
从统计数据分析的眼光我们可以问数据挖掘方法是否是智能训练。到目前为止,仍可以说它是,也可以说不是。数据挖掘包中广为人知的程序来自机器学习,模式识别,神经网络和数据可视化领域。它们强调` 看和感觉`和感官性的存在。这样看上去并不是在意具体的表现,而是要迅速占领市场。在这个领域中目前大部分的研究集中在改进当前的机器学习方法和加速已存在的算法。
然而,在将来数据挖掘几乎可以肯定地说是一种智能训练。当一种技术的效率提高了十倍,人们总要认真地重新考虑怎样应用它。想一想人类从走到飞的历史进程,每一次提高都大约是以前的十倍,并且每一次量的提高都重新改变了我们对如何使用交通工具的想法。C huck Dickens(前SLAC的计算指导)曾说到:`每次计算机的能力提高十倍,我们都应该从总体上重新思考一下我们应该怎样算,算什么的问题。` 一个相应的说法可能是`每次数据量增加十倍,我们就应该从总体上重新考虑一下怎样分析它。`从当前几乎大多数使用的数据挖掘工具发明的那一段时间到现在,计算机的处理能力和数据量都增加了好几个数量级。新的数据挖掘方法在将来一定会更智能更有学术性( 商业性)。
.在我们的杂志上发表这类文章。
.在我们的本科课程中讲授一些这方面的内容 ?br> .在我们的研究生中讲授一些相关的研究课题。
.给那些这方面较优秀的人提供一些奖励(工作,任期,奖品)。
答案并不明显,在统计学的历史上就忽略了许多在其它数据处理相关领域发展的新方法。如下是一些相关领域的例子。其中带*的是那些在统计科学中萌芽,但随后绝大部分又被统计学忽略的方法领域。
1 模式识别*--CS/工程
2 数据库管理--CS/图书馆科学
3 神经网络*--心理学/CS/工程
4 机器学习*-CS/AI
5 图形模型*(Beyes 网)-CS/AI
6 遗传工程--CS/工程
7 化学统计学*--化学
8 数据可视化**--CS/科学计算
可以肯定地说,个别的`统计学家`已经致力于这些领域,但公平地说他们并未被我们的统计学领域拥抱(或者说热情地拥抱)。
.概率理论
.实分析
.测度论
.渐近理论
.决策理论
.马耳可夫链
.鞅
.遍历理论
.等
统计领域好象被定义成一族能提出如上或相关工具的问题。当然这些工具过去和将来都会很有用。就象Brad Efron提醒我们一样:`统计是最成功的信息科学。`,`那些忽略了统计的人将受到惩罚,他们将在实际中自己重新发现该统计方法。`
有人认为在当前数据(及其相关应用)以指数方式增长,而统计学家的数量显然赶不上这种增长的情况下,我们统计学应该将精力集中于信息科学中我们作得最好的部分,也就是基于数学的概率推断。这是一种高度保守的观点,当然它也有可能是最好的一种战略。然而,如果我们接受这一种观点,我们统计学家在‘信息革命’浪潮中的作用肯定会逐渐消失殆尽(在这个舞台上的演员越来越少)。当然这种战略的一个很好的优点是它对我们创新的要求很少,我们只需要墨守成规就可以了。
另一种观点,早在1962年就由John Tukey[Tukey (1962)]提出来了,他认为统计应该关注数据分析。这个领域应该依据问题而不是工具定义,也就是那些和数据有关的问题。如果这种观点成为一种主流观点,那就要求对我们的实践和学术课题作较大的改变。
首先(最重要的),我们应该跟上计算的步伐。哪里有数据,哪里就有计算。一旦我们将计算方法看成是一个基本的统计工具(而不是一种方便地实现我们现成工具的方法),那么当前许多和数据密切相关的领域将不复存在。他们将成为我们领域的一部分。
认真对待计算工具而不是简单地使用统计包--虽然这一点也很重要。如果计算成为我们的一个基本的研究工具,毫无疑问,我们的学生应该学习相关的计算科学知识。这将包括数值线性代数,数值和组合优化,数据结构,算法设计,机械体系,程序设计方法,数据库管理,并行体系,和程序设计等等。我们也将扩展我们的课程计划,它应该包括当前的计算机定向数据分析方法,它们大部分是在统计学科之外发展起来的。
如果我们想和其它的数据相关领域争夺学术和商业的市场空间,我们的某些基本模式将不得不改变,我们将不得不调节对数学的幻想。数学(象计算)只是统计的一个工具,虽然非常重要,但并不是唯一能证实统计方法有效性的工具。数学不等价于理论,反之亦然。理论本来是创造理解力和数学,虽然这很重要,但并不是作此的唯一方法。比如,在疾病的基因理论中数学内容很少,但它却使人们更好地理解许多医学现象。我们将承认经验确认方式,虽然有一定局限性,但的确是一种确认方式。
我们可能也不得不改变我们的文化。每一个参与其它数据相关领域的统计学家都被他们和统计学的‘文化差距’所震撼。在其它的一些领域,‘想法’比数学技术(基础)更重要。一个有启发的‘想法’就被认为是有价值的,若有更详细的确认(理论的或经验的)人们才去讨论它的最终价值。思维方式是‘如果没有证明是有罪的,那就是清白的’这和我们领域的思路是不一致的。过去如果一个新方法不是用数学证明是有效的,我们常常诋毁它,即使不这样,我们也不会接受它。这种思路在数据集比较小和信息噪声比较高时是合理的。特别地,我们应该改变我们诋毁那些表现很好(通常在其它领域),但却没被我们理解的方法的习惯。
.
.
(以下的内容意思是:统计学面临危机,市场的,人才的危机。统计学可以在数据挖掘科学中发挥作用,统计学应该和数据挖掘合作,而不是将它甩给计算机科学家。)
参考:Tukey,J.W.(1962).数据分析的未来 Ann.Statist.33,1-67