机器学习 与 统计模型
在资料科学的讨论中,这样的问题是很多人想知道,也是一个难以三言两语回答的问题:
机器学习与统计模型有什么不同?
一般来说,这两个项目所研究的目标相近,不同的是使用的背景不同。机器学习是资工领域发展的议题;统计模型是统计学所探讨的领域。这是一张有趣的图来说明资料科学中之间错综复杂的交织关系:
首先,不管是机器学习或是统计模型都有一个共同的目标 - Learning from Data. 这两种方法的目的都是透过一些处理资料的过程中,对资料更进一步的了解与认识。
来看看这两者在科学上的简单定义:
- Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
- Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.
换个角度,看看实际上使用上有什么差异。这是一张 McKinsey 用于客户风险预测问题的结果,有 A 、 B 两个变数。绿色线是统计方法得出的规则;等曲线是机器学习方法发现的,两者皆能够指出风险较高的趋势。
统计方法用一个方程式去描述分类问题,将资料找出一个分割线将结果分成两类。然而,从机器学习的方法找出来的是一圈一圈的等曲线,看起来似乎可以得到更广泛的结果,而不只是简单的分类问题。
机器学习是从资工及人工智慧中发展而来的领域,透过非规则的方法去学习资料分布的关系。统计模型是统计学中利用这种变量去描述与结果的关系。统计模型是基于与说严格的限制下去进行的,称为假设检定,这也是与机器学习方法上的不同。
基于假设检定下的发展,使得统计模型能找出更贴近「现有资料」的趋势。然而,预测的目的是为了找出「未来资料」或所有资料,但假设会使得资料太贴近现有资料(机器学习中称为 过拟和的一种问题)。严格的假设也成了统计学习的一种双面刃,有一句资料科学中流传的名言是这样讲的:the lesser assumptions in a predictive model, higher will be the predictive power.
算式与定义
机器学习
一种不依赖于规则设计的数据学习算法;计算机科学和人工智慧的一个分支,通过数据学习构建分析系统,不依赖明确的构建规则。
统计模型
以数学方程形式表现变量之间关系的程式化表达;数学的分支用以发现变量之间相关关系从而预测输出。
后记
不管是统计专家或机器学习专家,甚至是太空物理学家,基本上都是想要建立模型来诠释这世界的种种现象,但主要的差别在于,统计模型有考虑了随机误差,并且对随机误差有一整套严密的解释体系,但其他领域的专家所建立的模型未必有考量到随机误差。如果自然界与人类社会的种种现象没有这个随机误差的存在,整个统计领域可以完全消失也无所谓。
接触过机器学习、资料探勘的人大概都知道,如果没有整个母体的模型假设加上随机误差模型的搭配,很多号称「表现很好」的模型,其实过一阵子就都会完蛋,也因此经常需要持续不断的微调参数。
Difference between Machine Learning & Statistical Modeling
【陈景祥专栏】当统计专家遇上机器学习专家