初学数据挖掘与知识发现,对有关基础知识做一些笔记和思考
[size=x-large]一数据挖掘的背景[/size]
[size=large](一)[/size].什么是数据挖掘?什么是知识发现?知识发现:knowledge Discovery in Database,KDD,我的理解是知识发现是从海量数据中分析出对我们有用的数据,而最初数据挖掘是作为知识发现的一个步骤,或者说是知识学习的这个阶段叫数据挖掘,后来数据挖掘逐渐演变成KDD的同义词。当然数据挖掘我们也可以理解其为一个数据分析方法。
[size=large](二).[/size]什么是数据仓库?和数据挖掘的区别是什么?我的理解是,数据仓库是数据挖掘的对象,数据仓库提供数据给我们挖掘。
[size=large](三)[/size].数据挖掘和传统数据分析方法的区别:区别一数据挖掘所面对的数据和以前面对的数据有着显著的区别。那么,现在的数据源和以前的区别有哪些?首先,现在的数据源更加海量了,其次,现在的数据可能不是结构化数据,什么是结构化数据?应用百度百科的说法:[quote]即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,而非结构化数据是指,数据库二维逻辑表来表现的数据即称为非结构化数据,比如xml,html,图像,视频,文本等[/quote],这里还要注意一个半结构化数据,就是结构化的数据结构变化很大,其字段会根据需要扩充,比如说简历,每个人的简历不同,其中要存储的数据也就不同。
[url]http://baike.baidu.com/view/2119114.htm[/url],第三,可能出现数据噪声,就是损坏的数据,也就是无意义的数据。
区别二:分析方法不同,传统的数据分析方法是先给定一个假设,然后我们通过分析数据去验证这个假设,而数据挖掘并没有假设,相反,它是发现假设的。
[size=large](四)[/size],为什么要有数据挖掘,为了从大量的数据中找出对我们有用的数据。
[size=x-large]二数据挖掘可以完成的主要功能[/size]
[size=large](一)[/size]概念/类别描述(包括数据特征化和数据区分):我的理解就是用数据挖掘进行分析,获得这个类或是概念的总体性的描述。并将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
[size=large](二)[/size]关联规则,关联规则X->Y表示满足X的数据库元组很可能满足Y。
[size=large](三)[/size]分类与预测,分类是我们分析一个已知的类别来建立一个模型,通过这个模型我们可以判断出类别未知的类的类别,其中这里的模型有分类规则(if-then),决策树(每个节点对应一个事件或决策,而每个事件或决策都能引出多个事件或决策。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量,每个变量对应一个问题,来判断所属的类别,最后每个叶子会对应一个类别。),神经网络。而预测更加偏向的是预测一个连续的数值。
[size=large](四)[/size]聚类分析:把一组数据分成不同的簇,每簇中数据相似而不同簇间的数据则距离较远。
[size=large](五)[/size]时间序列分析,时间序列分析通过大量时间序列数据的分析找到特定的规则和感兴趣的特性。
[size=large](六)[/size]离群点分析:离群点是指与一般数据的行为或模型不一致的那些点。
[size=large](七)[/size]演变分析:描述行为随时间变化的对象的规律和趋势,并对其建模。
[size=x-large]三数据挖掘模型[/size]
[size=medium]1[/size].什么是数据挖掘模型?我的理解就是我们用这个模型去进行数据挖掘或者为数据挖掘的步骤,其模型为CRISP-DM(Cross Industry Standard Process for Data Mining)。
[size=x-large]四知识发现实现流程[/size]
[size=large](一)[/size]数据准备
我们不好直接在收集的数据上进行数据挖掘,我们要做一些准备工作,也就是数据的预处理,包括净化损坏数据,推测缺失数据,转换离散型数据,数据缩减。
[size=large](二)[/size]数据挖掘,根据KDD的目的,选取相应的算法的参数,分析数据,得到可能形成知识的模式模型。
[size=large](三)[/size]模式评估,通过上面得到的模式,我们要进行评估,发现其是否有效或有用,并且把这些模式转变为客户能够理解的语言。
[size=large](四)[/size]知识应用,通过得到的知识,我们进行运用。
数据挖掘与知识发现 数据挖掘与知识发现pdf
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
知识发现的魅力:从数据中挖掘价值
1.背景介绍在当今的大数据时代,数据已经成为企业和组织中最宝贵的资源之一。数据可以帮助企业更好地了解市场、优化业务
大数据 人工智能 语言模型 AI LLM -
数据挖掘概念与技术知识框架 数据挖掘基本知识
1. 为什么数据挖掘是重要的? 主要是由于存在可以广泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识,以将其广泛用于市场分析、欺诈检测、顾客保有、产品控制和科学探索等。 2.  
数据挖掘概念与技术知识框架 数据挖掘 数据库 数据仓库 任务 -
数据挖掘原理与实践 数据挖掘原理与实践pdf
数据挖掘的发展过程。 1关系型数据库 -》2数据仓库 -》3数据挖掘-》4大数据挖掘。xx网北京地区2013年1月份的注册数是多少, &n
数据挖掘原理与实践 数据挖掘原理 分类算法 数据挖掘 聚类算法