数据
数据的价值是不可估量的。搜索引擎,netflix的电影推荐 ,常见的recommendation system ,以及一些深度学习的应用,都是依靠大量training data完成
比如下图都是data 为基础的应用
什么是数据挖掘
数据挖掘的定义有很多种
1、最简单的一种是: 将数据变成有用的知识
2、从数据中提取出一点隐含的、之前我们不知道的可能存在的有用信息
3、通过自动或半自动方式对大量数据进行探索和分析,以发现有意义的模式
如上图,我们先对data进行预处理,而后进行数据挖掘,得出hypothesis后再次进行后处理,最终得到过去未知的信息。
从商业的角度考虑为什么用数据挖掘
有三个原因:
因为像favebook,amazon,bank transactions 这种大型的 企业手中有着大量的上百万的用户数据,流水记录等等。
而随着计算机的使用日渐低成本、高效率。数据挖掘变的非常热门除此之外,各行业内部竞争压力越来越来,提供更好更有效的服务变的越来越重要
从科学的角度考虑为什么用数据挖掘
1、目前的技术,数据可以高速收集和存储
2、数据挖掘可以帮助科学家自动地分析大量数据
数据挖掘要做的事
1、预测方法
使用一些变量来预测未知或未来其他变量的值。比如分类问题
2、描述方法
寻找人可解释的模式来描述数据。比如推荐系统
分类问题
即为类的属性 找到一个模型,用这个模型去预测其他的属性对类属性的影响。如下图,我们根据已有数据,作出一颗决策树,从而预测credit worthy 的 class label。
分类问题的思路很简单,用training set 通过学习分类器找到对应的model,然后test set 输入到model内 就可以预测结果。
常见的分类问题的应用
1、诈骗检测
目的: 预测信用卡交易中的诈骗行为
方法:
- 使用信用卡交易及其帐户信息- 持有人作为属性。
- 将过去的交易标签为欺诈交易或公平交易。这形成了class属性。
- 学习出一个模型,模型值为交易class
- 使用此模型通过观察帐户上的信用卡交易来检测欺诈。
2、决策 患者是否需要外科手术
目的:基于患者的一些physical conditions ,比如血压 血糖 体重 等等, 预测是否患有癌症
方法:
- 收集 已知的患者和健康人的相关physical conditions数据集
- 找到“患癌” 模型
- 预测
回归问题
- 目标是基于其他变量的值,预测一个给定的连续变量的值,假设出一个线性相关或非线性相关模型
- 回归方法被广泛的应用在了统计学和神经网络中
- 常见的例子有:
- 根据广告支出预测新产品的销售量。
- 使用多个测试数据预测某种癌症的生存机会。
- 股票市场指数的时间序列预测。
簇问题
将数据分成几个group ,使得在每个group里的数据是互相相似的。如下图
- 市场分割应用
目标:将一个市场细分为不同客户的市场子集,任何子集都可以被选择为具有独特营销组合的市场目标。
方法:
1. 根据客户收集不同的属性,这些属性是地理和生活方式等相关信息。
2. 找到相似顾客簇
3. 通过观察同一集群中的客户与不同集群中的客户的购买模式来衡量集群质量 - 文件簇
目标: 基于文档中出现的重要术语,词汇 ,找到groups of 相似文件簇
方法 :识别经常出现的术语文档。根据不同术语的频率形成相似性度量。用它来分簇。
关联问题。association
给定一组记录,每个记录包含给定集合中的一些项目。生成依赖项规则,该规则将根据其他项的出现来预测项的出现。如下图: