第5章 NoSQL数据库

5.1 NoSQL简介

NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称。

通常,NoSQL数据库具有以下几个特点:

(1)灵活的可扩展性

(2)灵活的数据模型

(3)与云计算紧密融合


5.2 NoSQL兴起的原因

1.关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:

(1)无法满足海量数据的管理需求 、

(2)无法满足数据高并发的需求

(3)无法满足高可扩展性和高可用性的需求

2.关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是,关系数据库引以为傲的两个关键特性,到了Web2.0时代却成了鸡肋,主要表现在以下几个方面:

(1)Web2.0网站系统通常不要求严格的数据库事务

(2)Web2.0并不要求严格的读写实时性

(3)Web2.0通常不包含大量复杂的SQL查询(去结构化,存储空间换取更好 的查询性能)


5.3 NoSQL和关系数据库的比较

比较标准

RDBMS

NOSQL

备注

数据库原理

完全支持

部分支持

RDBMS有关系代数理论作为基础 NoSQL没有统一的理论基础

数据规模


超大

RDBMS很难实现横向扩展,纵向扩展的空间也比较有限,性能会随着数据规模的增大而降低 NoSQL可以很容易通过添加更多设备来支持更大规模的数据

数据库模式

固定

灵活

RDBMS需要定义数据库模式,严格遵守数据定义和相关约束条 件 NoSQL不存在数据库模式,可以自由灵活定义并存储各种不同类型的数据

查询效率


可以实现高效的简单 查询,但是不具备高 度结构化查询等特性, 复杂查询的性能不尽 人意

RDBMS借助于索引机制可以实现快速查询(包括记录查询和范 围查询) 很多NoSQL数据库没有面向复杂查询的索引,虽然NoSQL可以使用MapReduce来加速查询,但是,在复杂查询方面的性能仍然不如RDBMS

一致性

强一致性

弱一致性

RDBMS严格遵守事务ACID模型,可以保证事务强一致性 很多NoSQL数据库放松了对事务ACID四性的要求,而是遵守 BASE模型,只能保证最终一致性

数据完整性

容易实现

很难实现

任何一个RDBMS都可以很容易实现数据完整性,比如通过主键或者非空约束来实现实体完整性,通过主键、外键来实现参照完整性,通过约束或者触发器来实现用户自定义完整性。但是,在NoSQL数据库却无法实现

扩展性

一般


RDBMS很难实现横向扩展,纵向扩展的空间也比较有限 NoSQL在设计之初就充分考虑了横向扩展的需求,可以很容易 通过添加廉价设备实现扩展

标准化



RDBMS已经标准化(SQL) NoSQL还没有行业标准,不同的NoSQL数据库都有自己的查询 语言,很难规范应用程序接口 StoneBraker认为:NoSQL缺乏统一查询语言,将会拖慢NoSQL 发展

技术支持



RDBMS经过几十年的发展,已经非常成熟,Oracle等大型厂商都可以提供很好的技术支持 NoSQL在技术支持方面仍然处于起步阶段,还不成熟,缺乏有力的技术支持

可维护性

复杂

复杂

RDBMS需要专门的数据库管理员(DBA)维护 NoSQL数据库虽然没有DBMS复杂,也难以维护

可用性


很好

RDBMS在任何时候都以保证数据一致性为优先目标,其次才是 优化系统性能,随着数据规模的增大,RDBMS为了保证严格的 一致性,只能提供相对较弱的可用性 大多数NoSQL都能提供较高的可用性

  • 总结

(1)关系数据库

优势:以完善的关系代数理论作为基础,有严格的标准,支持事务ACID四性 ,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持

劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等

(2)NoSQL数据库

优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0 应用,具有强大的横向扩展能力等

劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强一致性 ,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等

关系数据库和NoSQL数据库各有优缺点,彼此无法取代

•关系数据库应用场景:电信、银行等领域的关键业务系统,需要保证强事务一致性

•NoSQL数据库应用场景:互联网企业、传统企业的非关键业务(比如数据 分析)


5.4 NoSQL四大类型

NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数 据库通常包括键值数据库、列族数据库、文档数据库和图形数据库。

NoSQL数据库原理读后感 nosql数据库原理pdf_大数据


NoSQL数据库原理读后感 nosql数据库原理pdf_数据_02

5.4.1 键值数据库

NoSQL数据库原理读后感 nosql数据库原理pdf_关系数据库_03


5.4.2 列族数据库

NoSQL数据库原理读后感 nosql数据库原理pdf_大数据_04


5.4.3 文档数据库

NoSQL数据库原理读后感 nosql数据库原理pdf_关系数据库_05

与键值数据库的差异:可以在文档上进行索引,并不一定在键值上。


5.4.4 图数据库

NoSQL数据库原理读后感 nosql数据库原理pdf_NoSQL数据库原理读后感_06


5.5 NoSQL的三大基石

NoSQL的三大基石包括CAP、BASE和最终一致性。

5.5.1 CAP

所谓的CAP指的是:

C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的,或者说,所有节点在同一时间具有相同的数据 ;

A:(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;

P(Tolerance of Network Partition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。

CAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性 和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊 掌不可兼得”。

NoSQL数据库原理读后感 nosql数据库原理pdf_关系数据库_07

当处理CAP的问题时,可以有几个明显的选择:

1.CA:也就是强调一致性(C)和可用性(A),放弃分区容忍性(P),最简单的做法是把所有与事务相关的内容都放到同一台机器上。很显然,这种做法会严重影响系统 的可扩展性。传统的关系数据库(MySQL、SQL Server和PostgreSQL),都采用了这 种设计原则,因此,扩展性都比较差

2.CP:也就是强调一致性(C)和分区容忍性(P),放弃可用性(A),当出现网络分区的情况时,受影响的服务需要等待数据一致,因此在等待期间就无法对外提供服务

3.AP:也就是强调可用性(A)和分区容忍性(P),放弃一致性(C),允许系统返回不一致的数据


5.5.2 BASE

NoSQL数据库原理读后感 nosql数据库原理pdf_关系数据库_08

BASE的基本含义是基本可用(Basically Available)软状态(Soft-state)和最终一致性(Eventual consistency)

1.基本可用

基本可用,是指一个分布式系统的一部分发生问题变得不可用时,其他部分仍然可以正常使用,也就是允许分区失败的情形出现。

2.软状态

“软状态(soft-state)”是与“硬状态(hard-state)”相对应的一种提法。数据库保 存的数据是“硬状态”时,可以保证数据一致性,即保证数据一直是正确的。“软状态 ”是指状态可以有一段时间不同步,具有一定的滞后性。

3.最终一致性

一致性的类型包括强一致性和弱一致性,二者的主要区别在于高并发的数据访问操作下 ,后续操作是否能够获取最新的数据。对于强一致性而言,当执行完一次更新操作后,后续 的其他读操作就可以保证读到更新后的最新数据;反之,如果不能保证后续访问读到的都是 更新后的最新数据,那么就是弱一致性。而最终一致性只不过是弱一致性的一种特例,允许 后续的访问操作可以暂时读不到更新后的数据,但是经过一段时间之后,必须最终读到更新后的数据。


5.5.3 最终一致性

最终一致性根据更新数据后各进程访问到数据的时间和方式的不同,又可以 区分为:

因果一致性:如果进程A通知进程B它已更新了一个数据项,那么进程B的后续访 问将获得A写入的最新值。而与进程A无因果关系的进程C的访问,仍然遵守一般 的最终一致性规则

“读己之所写”一致性:可以视为因果一致性的一个特例。当进程A自己执行一个更新操作之后,它自己总是可以访问到更新过的值,绝不会看到旧值

会话一致性:它把访问存储系统的进程放到会话(session)的上下文中,只要会话还存在,系统就保证“读己之所写”一致性。如果由于某些失败情形令会话终止,就要建立新的会话,而且系统保证不会延续到新的会话 。

单调读一致性:如果进程已经看到过数据对象的某个值,那么任何后续访问都不会返回在那个值之前的值

单调写一致性:系统保证来自同一个进程的写操作顺序执行。系统必须保证这种程度的一致性,否则就非常难以编程了


5.6 从NoSQL到NewSQL数据库

NoSQL数据库原理读后感 nosql数据库原理pdf_关系数据库_09

NoSQL不足: 不具备高度结构化查询等特性,查询效率尤其是复杂查询方面不如关系数据库,而且不支持事务ACID四性。

NewSQL是对各种新的可扩展、高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。

NoSQL数据库原理读后感 nosql数据库原理pdf_数据_10


5.7 文档数据库MongoDB

5.7.1 MongoDB简介

•MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。

•在高负载的情况下,添加更多的节点,可以保证服务器性能。

•MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。

•MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。 MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档 数组。

NoSQL数据库原理读后感 nosql数据库原理pdf_关系数据库_11

主要特点:

•提供了一个面向文档存储,操作起来比较简单和容易

•可以设置任何属性的索引来实现更快的排序

•具有较好的水平可扩展性 •支持丰富的查询表达式,可轻易查询文档中内嵌的对象及数组

•可以实现替换完成的文档(数据)或者一些指定的数据字段

•MongoDB中的Map/Reduce主要是用来对数据进行批量处理和聚合操作

•支持各种编程语言:RUBY,PYTHON,JAVA,C++,PHP,C#等语言

•MongoDB安装简单