数据挖掘与其商务智能上的应用
内容摘要:数据挖掘是商务智能技术的重要组成部分,是一个新的重要的研究领域。本文介绍了商务智能技术应用现状和组成,数据挖掘的发展及现状分析,数据挖掘在现代商务智能上的应用,以及数据挖掘的过程。
关键词:商务智能 数据挖掘 数据分析
1.数据挖掘的定义
数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
数据挖掘一般由以下几个步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表示。
2.数据挖掘的发展
数据挖掘的发展是随着现代信息的大爆炸而产生的,众所周知的,现代社会是一个信息急剧产生的时代,每一天都有大量的数据产生,要从这些大量的数据之中找出我们想要的知识,那就需要用到数据挖掘的技术。
数据挖掘的发展速度是很快的,数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也接纳了很多来自其他领域的思想。并且这些思想为数据挖掘奠定了坚实的基础。起到了很好的支撑作用。这些都为数据挖掘的发展奠定了很坚实的基础。
3.数据挖掘的现状分析
数据挖掘从诞生到现在不过十多年的时间,在这短短的十几年里,它吸引了各个行业的研究人员、工业界人士的兴趣。目前,它已成为最近几年对人类生活影响最大的几项IT技术之一。在产业界,涌现出许多新兴的数据挖掘相关产品供应商,数据挖掘的应用已取得初步的成功。随着人们对信息的重视程度不断加深,数据挖掘的前途必将是光明的。
数据挖掘在我国的应用大多还处在初级阶段,也就是数据分析的时代。而在国外已经发展到了高级的数据挖掘的时代。传统的报表在广泛的使用,但是随着数据量的增加,报表越来越不能满足企业对于数据的分析需求。它面临这几个问题,(1).数据太多,而信息太少。(2).难以交互分析,了解各种组合。(3). 难以挖掘出潜在的规则。(4). 难以追溯历史,数据形成孤岛。值得注意的是,数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值,并不是取代数据报表。报表系统依然有其不可取代的优势,并且将会长期与数据分析、挖掘系统一起并存下去。
4.商务智能现状简介
我国加入了WTO,在许多领域,如金融、保险、物流等领域将逐步对外开放,这就意味着许多的企业将面临来自国际大型跨国物流公司的巨大竞争压力。国外发达国家各种企业采用商务智能的水平已经远远超过了我国。美国Palo Alto 管理集团公司1999年对欧洲、北美和日本375家大中型企业的商务智能技术的采用情况进行了调查。结果显示,在金融领域,商务智能技术的应用水平已经达到或接近70%,在营销领域也达到50%,并且在其他应用领域对该技术的采纳水平都提高约50%。现在,几乎所有的企业都把数据看成宝贵的财富,纷纷利用商务智能发现其中隐藏的信息,以为公司的发展提供重要的数据支持,和理论应道。
据IDC对欧洲和北美62家采用了商务智能技术的企业的调查分析发现,这些企业的3年平均投资回报率为401%,其中25%的企业的投资回报率超过600%。调查结果还显示,一个企业要想在复杂的环境中获得成功,高层管理者必须能够控制极其复杂的商业结构,若没有详实的事实和数据支持,是很难办到的。因此,随着数据挖掘技术的不断改进和日益成熟,它必将被更多的企业所采用,使更多的企业管理者得到更多的商务智能,更加充分的应用公司现有的宝贵的数据财富,为公司创造出更多的财富。
5.将数据挖掘应用到商务智能
数据挖掘应用在商务智能上的企业一般都应该具备下列几个特点:
(1)大量的顾客;这样才能产生足够多的可供分析的数据。
(2)非常激烈的竞争并有差异化的需要;这些行业一般提供的都是差异化很小的产品,同时行业内的竞争又非常激烈,从而使差异化的服务成为企业必然选择。
(3)能容易地收集到大量的电子数据。这些行业一般都有较完善的电子交易记录系统,可以很方便的收集到大量的电子交易数据。
广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看来,数据挖掘就是BI。但从技术术语上说,数据挖掘(Data Mining)特指的是:源数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。
数据挖掘横向上可以分为在直销、争取客户、保留客户、交叉销售和趋势分析、欺诈甄别等。在纵向上可以分为以下几个领域的应用:
数据挖掘在金融分析里面得到了很广泛的应用,由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测,这些人工的预测一般是根据自己的经验再通过对已有的股票数据的分析而得到的,由于是人工处理,很难对更大量的股市数据进行分析。无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Sele ctor,LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。
6.数据挖掘的流程
(1)问题定义:了解相关领域的有关情况,熟悉背景知识,弄清用户要求。定义要挖掘的目标。
(2)数据提取:根据要求从数据库中提取相关的数据。
(3)数据预处理:主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补.
(4) 知识提取:运用选定的数据挖掘的算法,从数据中提取用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。
(5) 评估:将发现的知识以用户能理解的方式呈现,如某种规则,再根据实际执行情况对知识发现过程中的具体处理阶段进行优化,直到满足用户要求.
7.结论分析
实践表明,由于人工智能发展的局限性,计算机在未来相当长的一段时期内是不可能像人类这样会进行复杂的思考,它只会按照人的指令工作。但是,计算机拥有海量的数据存储能力和超强的计算能力,所以,只要我们建立合适的业务模型,设计完善的执行程序,选择正确的分析算法,它一定可以更好的为我们服务。
数据挖掘技术是一个年轻且充满希望的研究领域,利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等。