摘要
正好在准备一个面向本科生的科普讲座,把这几天整理的思路分享一下
异:机器学习的精髓在优化,数据挖掘的精髓在筛选。
同:无论是优化和筛选,核心都是在计算某个指标的均值。
一、差异
机器学习:给定模型,根据数据优化模型参数。
数据挖掘:从数据中筛选符合条件的模式、规则。
机器学习的重点在优化,数据挖掘的重点在筛选。
1.1 机器学习的例子
首先,回归可以抽象为给定模型,根据数据优化模型参数
其次,分类也可以抽象为给定模型,根据数据优化模型参数
然后,聚类也可以抽象为给定模型,根据数据优化参数
凡是以“给定模型,根据数据优化参数”为蓝本倒腾数据的,都可以归类为机器学习。
1.2 数据挖掘的例子
最经典的频繁模式就是从数据中筛选符合条件的模式。
凡是以“从数据中筛选符合条件的模式”为蓝本倒腾数据的,都可以归类为数据挖掘。
二、殊途同归
机器学习和数据挖掘殊途同归的地方在于:
机器学习通过最小化/最大化损失函数的均值来优化参数。
数据挖掘通过计算模式在每条数据中相应指标的均值来对其筛选。
这俩的核心,都是在计算某个玩意的均值
以下是举例,其中N是数据的大小
首先是回归
这是回归
然后是分类,下图中类别“1”代表红色,类别“-1”代表绿色
再然后是频繁模式挖掘
启发
由于均值计算在机器学习和数据挖掘中的重要性,所以统计学中的均值收敛理论和频率收敛理论对机器学习和数据挖掘都具有很大的作用!
我在下面这个回答中,讨论过类似的问题
如何对用户进行聚类分析?www.zhihu.com
编辑于 2019-12-12
定义如下:
1. 机器学习:在不直接编写规则的情况下,计算机能通过对数据的拟合,对特定的环境做出特定的响应,我们成为机器学习。
2. 数据挖掘: 尝试理解并描述数据之间一些固定的特征。
具体关系如下:
- 数据挖掘>机器学习>深度学习=统计学习
- 数据挖掘的方法不一定局限于机器学习算法。可以使用机器学习的算法,由模型发现数据之间的模式。也可以由人工观察数据,结合领域专家的经验发现数据间的关系。
发布于 07-20