数据库技术的发展趋势

随着计算机技术特别是计算机网络技术的发展,传统的数据库技术面临挑战。主要表现在以下几个方面:

  • 环境的变化 数据库的应用环境由可控制的环境变成多变的异构信息集成环境和Internet环境。
  • 数据类型的变化 数据库中的数据类型由结构化扩大至半结构化、非结构化和多媒体数据类型。
  • 数据来源的变化 大量数据将来源于实时和动态的传感器或监测设备,需要处理的数据量剧增。
  • 数据管理要求的变化 许多新型应用需要支持协同设计和工作流管理。

面向对象数据库

把面向对象的技术与数据库技术相结合,便产生了面向对象数据库。目前,面向对象数据库是数据库技术的一个重要发展方向,国外已经推出一些面向对象数据库产品,如美国Itasca System 公司的Itascs、Object Design公司的ObjectStore。这些面向对象数据库一般采用的是“纯”的面向对象模型。另外,还有一类面向对象数据库基于原有的关系数据库扩展而来的,即在关系数据库上引进封装、继承、随机数据类型等概念。一些著名的数据库厂商及第三方厂商在关系数据库上开发了大量的面向对象开发工具及环境。

分布式数据库

  • 分布式数据库系统由多台计算机组成,每台计算机上配有各自的本地数据库,各计算机之间通过通信网络连接。在这种系统中,大多数处理任务由本地计算机访问本地数据库来完成,对于少量本地计算机不能单独胜任的处理任务,则通过通信网络与其他计算机相联系,并获得其他数据库中的数据。
  • 分布式数据库的数据在地理上分散、逻辑上集中,数据由系统统一管理,使用户感觉不到数据的分散,用户看到的似乎是一个集中式数据库。与集中式数据库比较,分布式数据库具有体系结构灵活性大、可靠性高、可用性好、可扩充性好等优点。同时,也存在一些不足:分布式数据库虽然有利于改善性能,但如果数据库设计不好,数据分布不合理,使远距离访问过多,特别是当分布连接操作过多时,会降低系统的性能。

联邦数据库

人类在其文明形成和发展过程中已经积累了浩瀚的数据,并且采用已有的各种DBMS分别进行着管理。即使以后数据库技术大大进步了,人类不可能也不应该放弃这笔巨大的财富。相反,应充分地发挥其作用。显然,完全用一种统一的数据库来改造它们几乎是不可能的。因此必须承认现实,在已有的数据库基础上实现一定程度的联合(或综合)使用。 我们把数据库的联合或综合称为联邦数据库。联邦数据库主要是在分布的环境下实现数据的集成。由于各个数据库的数据模型、DBMS和计算机机型有很大的差别,因此联邦数据库实际上是结点异构型分布数据库的推广。联邦数据库不但要解决分布环境下的并发控制和数据一致性等问题,而且要解决由于数据模型、语言和语义解释的不同以及操作系统的异构带来的各种困难。另外,在数据共享时,还需处理各个数据库原始数据的不完全性和不一致性等问题。虽然联邦数据库的实现较困难,但人们还是在向这方面作努力。

数据仓库

数据仓库是指这样一种数据的存储地,来自于异地、异构的数据源或数据库的数据,经加工后在数据仓库中进行存储、存取和维护。数据仓库提供来自种类不同的应用系统集成的和反映历史变化的数据,使用户拥有任意存取数据的自由,而不干扰业务数据的正常运行。数据仓库不是单一的产品,而是由软、硬件技术组成的环境。它把各种数据源(源数据库)集成为一个统一的数据仓库,便于用户访问并能从历史的角度进行分析,最后做出决策。目前,数据挖掘已和数据仓库结合起来,研究重点放在数据仓库的有效应用上。

实时数据库

在现实世界中,不少应用活动有很强的时间性,即要求在规定的时间内完成事务处理。例如,电话交换、工厂生产过程控制、导弹飞行控制。实时数据库就是数据和事务都有时间限制的数据库。在实时数据库中,系统的正确性不仅依赖于事务的逻辑结果,而且依赖于该逻辑结果所产生的时间

时态数据库

我们知道,时间是自然界的客观属性,所有信息都具有相应的时态属性。常规数据库描述系统的当前状态。随着时间的推移,系统的状态不断地变化,数据库也不断地更新。数据库更新就是以新的状态取代旧的状态,旧的状态一般不再保留。实质上,常规数据库仅仅在时间维上保留当前的一个快照。在相当多的应用中,不但要查询事物的当前状态,有时还要查询过去的情况,甚至未来的预测或计划的情况。这种能够表示和处理时态数据的数据库称为时态数据库

按表示时态信息的方式,可以将数据库分成基本的4个类型:快照数据库、回滚数据库、历史数据库和双时态数据库。通常将后三种都称为时态数据库。但是,从广义的角度,这4种数据库都可以称作时态数据库。

空间数据库

在许多应用中,事物的空间关系往往成为其主要查询或处理的内容。例如,天文、地理、城市规划、管道网络、交通图、大规模集成电路、分子结构图、医学图片。面向这类应用的数据库必须在常规数据库的基础上,增加空间数据类型及其相关的操作,提供空间索引以及面向空间应用的交互式图形用户界面。经过这样扩充的数据库称为空间数据库。

此外,一些数据库的数据尽管不属于空间数据类型,但也可以被当作多维空间问题处理。例如,在关系数据库中,随着普遍使用多属性查询,如果将每个被查询的属性看作查询空间的一个维度,则多属性查询便可归结为多维空间的搜索

多媒体数据库

通常,把能够管理数值、文字、表格、图形、图像、声音等多种媒体的数据库称为多媒体数据库。由于不同媒体上的信息具有不同的性质与特性,如何组织不同媒体上的信息,将不同媒体上的数据一体化, 是多媒体数据库要解决的问题。与传统DBMS一样,多媒体DBMS也要进行数据处理、查询和事务处理。

在多媒体DBMS中特别强调“媒体独立性”。所谓媒体独立性是指不论管理的多媒体数据库的媒体如何变化,都不需改变DBMS。因此多媒体应能支持:①媒体的混合。在DBMS中,当遇到各种混合在一起的媒体,需对它们进行统一管理;②媒体的扩充。DBMS能处理图形、图像、声音等信息,此外,它应该能根据要求处理新的媒体;③媒体的转换。DBMS能对所遇到的各种媒体进行相互转换,以保障媒体的互换性。

工作流数据库

虽然信息技术的发展推动了社会的迅速前进,但是许多企业的生产效率由于受到传统组织结构的阻碍而未能大幅度地提高。许多研究人员提出了很多解决思想和方法。例如,业务流程重组(Business Process Reengineering,BPR)就是这样一种要求对传统管理思想进行重新思考,重新设计业务流程以便极大地提高企业生产效率的理论。工作流DBMS就是为了适应这类业务处理需求而产生的。这类业务处理需求注重提高企业中员工的工作协调性,它包括处理工作请求、何人何时做何工作,以及汇报工作完成情况、评价工作的满意程度。工作流DBMS是在数据库的基础上完成的,它对传统的数据库技术提出了一些特殊的要求。例如,长事务支持、协调多个活动对共享数据库的访问、对事件的支持等。

嵌入式数据库

运行在嵌入式系统的数据库称为嵌入式数据库,比如IBM DB2的卫星版及漫游版可用于Palm OS或Windows CE等。随着嵌入式系统广泛应用,嵌入式数据库具有广阔的应用前景。

移动数据库

移动计算的兴起引发了数据库技术的又一次突破,数据库的移动计算版本即移动数据库也应运而生。移动数据库是指支持移动计算环境的分布式数据库。目前的移动数据库一般利用掌上设备,通过有线或无线通信手段下载主机数据,再由自身的数据管理和处理系统来实现特定的应用,以适应移动办公、人员流动及特殊环境的需求。由于移动数据库通常应用在诸如掌上电脑、PDA、车载设备、移动电话等嵌入式设备中,因此它又被称为嵌入式移动数据库。移动数据库在实际应用中必须解决好数据的一致性(复制性)、高效的事务处理、数据的安全性等问题。

演绎数据库

演绎数据库是一种基于逻辑推理的数据库,它将数据库看成一个演绎系统,即一个数据库可与一个演绎理论相一致,由一些公理组成,通过公理中的演绎规则导出定理,或者说演绎数据库是一种具有演绎推理能力的数据库。

主动数据库

我们常常称传统数据库是“被动的”,仅当用户或应用程序“要它动时,它才动”,它所能提供的信息都是“过去”或“当前”的。主动数据库能主动监视当前尚不存在的、所希望的“未来”状态(关于数据库或非数据库的条件)的出现。一旦这种状态出现则启动相应的活动(程序)。因而,主动数据库不仅存储了数据,还存储了控制知识。不但能接受关于“过去”和“当前”的查询,还能处理关于“未来”的查询。不仅程序可驱动数据库,还能进行程序与数据库之间的双向驱动。

模糊数据库

数据库是对客观世界一部分的抽象描述。建立数据模型的主要目的在于建立一种抽象模型,以便把客观世界描述得更加贴切逼真。现实世界中大部分事物是表露不全、不确定和模糊不清的,一般很难采用一种基于二值逻辑和精确数学理论的数据模型来描述。因此有必要把不完全性、不确定性和模糊性数据引入数据库,开展模糊数据库的研究。模糊数据库能够更加贴切地描述客观世界,它已经在模糊查询、模式识别、决策咨询和知识处理等方面获得了成功的应用。

大数据

大数据(Big Data)是指体量大、类型多、价值密度低的数据集合。大数据的特征可以用4个V(来自于4个英语单词Volume、Variety、Value、Velocity 的首字母)来概括:

  • 体量(Volume)大 大数据需要处理的数据量往往高达TB(1TB = 1024GB,1 MB = 1024 KB)、PB(1PB = 1024TB),乃至EB(1 EB = 1024 PB)级。
  • 类型多(Variety) 相对于以往以字符、数值、日期、逻辑、备注型为主的结构化数据,大数据主要关心非结构化数据,包括音频、视频、图像数据。
  • 价值高(Value) 大数据往往潜在价值较高,但是价值密度低,例如高空侦察、视频监控中绝大多数数据几乎是没有任何价值的。
  • 处理快(Velocity) 大数据的快速获取、处理与分析是大数据获得有效应用的重要保证。
  • 大数据关键技术包括大数据的获取、处理、存储、检索、管理、保护、展现和应用。
  • 大数据应用十分广泛,涉及到人类工作、学习和生活的各个领域,如产品优化设计、水果优化种植、商业分析、金融分析、投资分析、情报分析、交通分析、天气预报、医疗诊断、治安监控。

云计算

云计算(Cloud Computing)是一种新兴的商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。云计算的核心思想是将大量用网络连接的硬件、软件与数据等构成一个计算资源池,进行统一管理和调度,通过网络向用户按需提供可动态伸缩的廉价计算服务。云计算具有如下特点:

  • 能力强:云计算一般拥有大量的计算资源,一个云计算系统可以拥有100万台服务器、EB级的数据。
  • 虚拟化:云计算是一个虚拟的资源池,它将硬件、软件与数据等资源全部虚拟化,用户通过网络使用资源池内的计算资源。
  • 高可靠性:云计算系统管理方式可靠,即使出现部分节点出错、失效也不会影响系统的正常运行。
  • 廉价性:云计算系统对资源实施智能化、自动化、集中式管理,用户无需关心设备更新、系统维护等工作,大量的用户使用提高了资源利用率、降低了使用成本。
  • 大数据一般采用云计算技术进行数据采集、处理、管理与挖掘。
  • 云计算提供基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)等三种服务模式。
  • IaaS是指用户通过网络获得计算基础设施服务,如租用服务器。
  • PaaS是指将软件开发平台作为一种服务提供给用户,如Google App Engine、百度应用引擎。
  • SaaS是一种通过互联网提供软件服务的模式,用户通过租用并利用客户端程序(如浏览器)使用软件,实现生产经营活动的管理,如在线进销存、企业电子邮局。

v为了迎接这些挑战,许多数据库技术研究和实践人员提出新的数据库概念,并开始在实际中使用。