1. 数据仓库:多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策。
  2. 数据仓库:通过数据清理、数据变换、数据集成、数据装入、定期数据刷新来构造。
  3. 数据仓库技术包括:数据清理、数据集成、联机分析处理(OLAP)。OLAP操作的例子包括上卷和下钻。
  4. 数据仓库用数据立方体这种多维数据结构建模。
  5. 知识发现(数据挖掘)过程:数据预处理(数据清理、数据集成、数据选择、数据变换)、数据挖掘、模式评估、知识表示。
  6. 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
  7. 可以挖掘的数据类型:数据库、数据仓库、事务数据、数据流、有序数据、图、网络数据、空间数据、文本数据、多媒体数据、万维网。
  8. 数据挖掘功能用于指定数据挖掘任务发现的模式,包括:特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析。
  • 特征化:对目标数据的一般特性的汇总。如收集去年销量增加10%的产品的特征,结果可能是价格在100-500之间、销售额在10万以上等特征。
  • 区分:将目标数据的一般特性与对比数据的一般特性进行比较。如比较经常(每月多于2次)购买A类产品的客户与不经常(每年少于3次)购买A类产品的客户,结果可能是经常购买A的客户80%在20-40岁,受过大学教育;不经常购买A类产品的客户80%年龄在60岁以上,没有大学学位。
  • 频繁模式:数据库中频繁出现的模式,包括频繁项集(一般指频繁在事务数据集中出现的商品的集合)、频繁子序列(如先买A后买B)、频繁子结构。
  • 关联和相关性:挖掘频繁模式导致发现数据的关联和相关性。如挖掘频繁项集,得出规则buys(X,"computer")-->buys(X,"software")[support=1%,confidence=50%],其中X指变量,客户;支持度指所分析的数据中1%的客户两者一起购买,50%的确信度指所分析购买计算机的客户中,50%的人可能买软件。
  • 相关分析可能需要在分为和回归分析前进行,它试图识别与分类和回归过程显著相关的属性,我们选取这类属性用于分类和回归过程。
  • 分类(用于预测):找出描述和区分数据类的模型(或函数),以便能用此模型预测类标号未知的对象的类标号。导出模型基于对训练数据集(即类标号已知的数据对象)的分析,预测类标号未知的对象的类标号。
  • 导出模型的表示方法:分类规则(即if-then规则)、决策树、数学公式、神经网络、朴素贝叶斯分类、支持向量机、K最近邻分类。
  • 回归分析:分类用于预测类别(无序、离散)的标号,而回归用来预测缺失的或难获得的数值数据值,而不是(离散的)类标号。术语预测可以指数值预测和类标号预测。
  • 聚类分析:分类和回归分析标记类的(训练)数据集,而聚类分析数据对象,不考虑类标号。在许多情况下,最初并不存在标记类的数据,可使用聚类产生数据群组的类标号。
  • 离群点分析:通过统计、距离向量或密度可以确定离群点。
  1. 机器学习:考察计算机如何基于数据学习(或提高它们的性能)。主要研究领域这之一是,程序基于数据自动地学习识别复杂的模式,并做出智能的决断。如,为计算机编程序,使之从一组实例学习后,能自动识别邮件上的手写体邮编。
  • 临督学习(类似于分类):学习中的监督来自训练数据集中标记的实例。如,在邮政编码识别问题中,一组手写的邮编图像与其对应的机器可读的转换物用做训练实例,监督分类模型的学习。
  • 无监督学习(类似于聚类):学习过程是无监督的,因为输入实例没有类标记。如,一个无监督学习方法可以取一个手写数字图像集合作为输入,假设它找到了10个数据簇,分别对应0-9,然而,由于训练数据并无标记,因此学习到的模型并不能告诉我们所发现的簇的语义。
  • 半监督学习:在学习模型时,使用标记的和未标记的实例。
  • 主动学习:可能要求用户对一个可能来自未标识的实例集或由学习程序合成的实例进行标记。
  1. 信息检索(IR):搜索文档或文档中信息,可以是文本或多媒体等。
  2. 信息检索与数据库差别:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没有复杂的结构。
  3. 商务智能(BI):数据挖掘是商务智能的核心。
  • 分类和预测技术是商务智能预测分析的核心。
  • 在客户关系管理方面,聚类起主要作用,它根据客户的相似性把客户分组。