数据仓库是一个面向主题的,集成的,时变的和非易失的数据集合,支持管理部门的决策过程。面向主题是指数据仓库围绕一些主题来组织,区别于事务。
集成的是指数据仓库是将多个异构数据源集成在一起。
时变的是指数据存储从历史的角度提供数据。
非易失的是指数据仓库只在初始化装入和数据查询时操作数据,不存在更新,插入等操作,极大多为读操作,而非写操作。
数据仓库更多的是用于决策分析,通过分析储存的历史数据挖掘出规律,以及预测以后的发展。
数据挖掘目前在中国的尚未流行开,犹如屠龙之技;数据挖掘本身融合了统计学、数据库、机器学习、模式识别、知识发现等学科,并不是新的技术。
数据挖掘之所以能够应用不是因为算法,算法是以前就有的。数据挖掘应用的原因是大数据和云计算。比如阿尔法狗的后台有上千台计算机同时运行神经网络算法。