云计算及其支撑技术简介

  • 1 云计算概述
  • 1.1 云计算定义与关键特征
  • 1.2 云服务的类别
  • 1.3 典型的云服务部署方式
  • 2 云计算支撑技术
  • 2.1 系统虚拟化
  • 2.2 虚拟化资源管理器
  • 2.3 分布式数据存储
  • 2.4 并行计算模式
  • 2.5 用户交互技术
  • 2.6 安全管理
  • 2.7 运营支撑管理


1 云计算概述

1.1 云计算定义与关键特征

云计算定义: 云计算是一种将可伸缩、弹性、共享的物理和虚拟资源池以按需自服务的方式供应和管理,并提供网络访问的模式。云计算模式由关键特征、云计算角色和活动、云能力类型和云服务分类、云部署模型、云计算共同关注点组成。
云计算的关键特征: 包括五个方面,具体如下:

  • 广泛的网络接入: 可通过网络,采用标准机制访问物理和虚拟资源的特性。这里的标准机制有助于通过异构用户平台使用资源。这个关键特
    性强调云计算使用户更方便地访问物理和虚拟资源:用户可以从任何网络覆盖的地方,使用各种客户端设备,包括移动电话、平板、笔记本和工作站访问资源。
  • 可测量的服务: 通过可计量的服务交付使得服务使用情况可监控、控制、汇报和计费的特性。通过该特性,可优化并验证已交付的云服务。这个关键特性强调客户只需对使用的资源付费。从客户的角度看,云计算为用户带来了价值,将用户从低效率和低资产利用率的业务模式转变到高效率模式。
  • 多租户: 通过对物理或虚拟资源的分配保证多个租户以及他们的计算和数据彼此隔离和不可访问的特性。在典型的多租户环境下,组成租户的一组云服务用户同时也属于一个云服务客户组织。在某些情况下,尤其在公有云和社区云部署模型下,一组云服务用户由来自不同客户的用户组成。一个云服务客户组织和一个云服务提供者之间也可能存在多个不同的租赁关系。这些不同的租赁关系代表云服务客户组织内的不同小组。
  • 按需自服务: 云服务客户能根据需要自动,或通过与云服务提供者的最少交互,配置计算能力的特性。这个关键特性强调云计算为用户降低了时间成本和操作成本,因为该特性赋予了用户无需额外的人工交互,就能够在需要的时候做需要做的事情的能力。
  • 快速的弹性和可扩展性: 物理或虚拟资源能够快速、弹性,有时是自动化地供应,以达到快速增减资源目的的特性。对云服务客户来说,可供应的物理或虚拟资源无限多,可在任何时间购买任何数量的资源,购买量仅仅受服务协议的限制。这个关键特性强调云计算意味着用户无需再为资源量和容量规划担心。对客户来说,如果需要新资源,新资源就能立刻自动地获得。资源本身是无限的,资源的供应只受服务协议的限制。
  • 资源池化: 将云服务提供者的物理或虚拟资源进行集成,以便服务于一个或多个云服务客户的特性。这个关键特性强调云服务提供者既能支持多租户,又通过抽象对客户屏蔽了处理复杂性。对客户来说,他们仅仅知道服务在正常工作,但是他们通常并不知道资源是如何提供或分布的。资源池化将原本属于客户的部分工作,例如维护工作,移交给了提供者。需要指出的是,即使存在一定的抽象级别,用户仍然能够在某个更高的抽象级别指定资源位置。

1.2 云服务的类别

云服务类别是拥有相同质量集的一组云服务。一种云服务类别可对应一种或多种云能力类型。典型的云服务类别包括:

  • 通讯即服务(CaaS): 为云服务客户提供实时交互与协作能力的一种云服务类别。
  • 计算即服务(CompaaS): 为云服务客户提供部署和运行软件所需的配置和使用计算资源能力的一种云服务类别。
  • 数据存储即服务(DSaaS): 为云服务客户提供配置和使用数据存储相关能力的一种云服务类别。
  • 基础设施即服务(IaaS): 为云服务客户提供云能力类型中的基础设施能力类型的一种云服务类别。
  • 网络即服务(NaaS): 为云服务客户提供传输连接和相关网络能力的一种云服务类别。
  • 平台即服务(PaaS): 为云服务客户提供云能力类型中的平台能力类型的一种云服务类别。
  • 软件即服务(SaaS): 为云服务客户提供云能力类型中的应用能力类型的一种云服务类别。

1.3 典型的云服务部署方式

云计算有四类典型的部署模式:“公有云”、“私有云”、“社区云”和“混合云”。具体描述如下:

  • 公有云: 云基础设施对公众或某个很大的业界群组提供云服务。
  • 私有云: 云基础设施特定为某个组织运行服务,可以是该组织或某个第三方负责管理,可以是场内服务(on-premises),也可以是场外服务(off-premises)。
  • 社区云: 云基础设施由若干个组织分享,以支持某个特定的社区。社区是指有共同诉求和追求的团体(例如使命、安全要求、政策或合规性考虑等)。和私有云类似,社区云可以是该组织或某个第三方负责管理,可以是场内服务,也可以是场外服务。
  • 混合云: 云基础设施由两个或多个云(私有云、社区云或公有云)组成,独立存在,但是通过标准的或私有的技术绑定在一起,这些技术可促成数据和应用的可移植性(例如用于云之间负载分担的 cloud bursting 技术)。

2 云计算支撑技术

2.1 系统虚拟化

系统虚拟化是指将一台物理计算机系统虚拟化为一台或多台虚拟计算机系统。每个虚拟计算机系统(简称虚拟机)都拥有自己的虚拟硬件(如 CPU、内存和设备等),来提供一个独立的虚拟机执行环境。通过虚拟化层的模拟,虚拟机中的操作系统认为自己仍然是独占一个系统在运行。每个虚拟机中的操作系统可以完全不同,并且它们的执行环境是完全独立的。这个虚拟化层被称为虚拟机监控器(Virtual Machine Monitor,简称 VMM)。系统虚拟化的体系结构如图1 所示。

区别云平台性能核心指标超分 云平台技术指标有哪些_区别云平台性能核心指标超分


图1 系统虚拟化体系结构图

虚拟机可以看作是物理机的一种高效隔离的复制。虚拟机具有三个典型特征:同质、高效和资源受控。同质指的是虚拟机运行环境和物理机环境在本质上需求是相同的,但是在表现上有一些差异。高效指的是虚拟机中运行的软件需要具有接近在物理机上直接运行的性能。资源受控指的是 VMM 需要对系统资源有完全控制能力和管理权限,包括资源的分配、监控和回收。

VMM 对物理资源的虚拟可以归结为三个主要任务:CPU 虚拟化、内存虚拟化和 I/O 虚拟化。CPU 虚拟化是 VMM 中最核心的部分,决定了内存虚拟化和 I/O虚拟化的正确实现。CPU 虚拟化包括指令的模拟、中断和异常的模拟及注入和对称多处理器技术的模拟。内存虚拟化一方面解决了 VMM 和客户机操作系统对物理内存认识上的差异,另一方面在虚拟机之间、虚拟机和 VMM 之间进行隔离,防止某个虚拟机内部的活动影响到其他的虚拟机甚至是 VMM 本身,从而造成安全上的漏洞。I/O 虚拟化主要是为了满足多个客户机操作系统对外围设备的访问需求,通过访问截获、设备模拟和设备共享等方式复用外设。

按照 VMM 提供的虚拟平台类型可以将 VMM 分为两类:完全虚拟化和半虚拟化。完全虚拟化下,VMM 虚拟的是现实存在的平台。在客户机操作系统看来,虚拟的平台和现实的平台是一样的,客户机操作系统觉察不到运行在一个虚拟平台上。这样的虚拟平台无需对现有的操作系统做任何修改。半虚拟化下,VMM虚拟的平台在现实中是不存在的。这样的虚拟平台需要对客户机操作系统进行修改使之适应虚拟环境。操作系统知道自己运行在虚拟平台上,并且会主动去适应。

当前主流的虚拟化技术实现结构可以分为三类:Hypervisor 模型、宿主模型和混合模型。在 Hypervisor 模型中,VMM 可以看作是一个扩充了虚拟化功能的操作系统,对底层硬件提供物理资源的管理功能,对上层的客户机操作系统提供虚拟环境的创建和管理功能。与 Hypervisor 不同,宿主模型中,VMM 作为宿主操作系统独立的内核模块。物理资源由宿主机操作系统管理,VMM 提供虚拟化管理。宿主模型和 Hypervisor 模型的优缺点恰好相反。宿主模型的最大优点是可以充分利用现有操作系统的设备驱动程序以及其它功能,缺点是虚拟化效率较低,安全性取决于宿主操作系统。而 Hypervisor 模型虚拟化效率高、安全,但是需要自行开发设备驱动和其它一些功能。混合模型集成了上述两类模型的优点。混合模型中,VMM 让出大部分 I/O 设备的控制权,将它们交由一个运行在特权虚拟机中的特权操作系统来控制。因此,混合模型下 CPU 和内存的虚拟化由 VMM 负责,而 I/O 虚拟化由 VMM 和特权操作系统共同合作完成。

2.2 虚拟化资源管理器

虚拟化资源是云计算中最重要的组成部分之一,对虚拟化资源的管理水平直接影响云计算的可用性、可靠性和安全性。虚拟化资源管理主要包括对虚拟化资源的监控、分配和调度。

云资源池中应用的需求不断改变,在线服务的请求经常不可预测,这种动态的环境要求云计算的数据中心或计算中心能够对各类资源进行灵活、快速、动态的按需调度。云计算中的虚拟化资源与以往的网络资源相比,有以下特征:(1) 数量更为巨大;(2) 分布更为离散;(3) 调度更为频繁;(4) 安全性要求更高。

通过对虚拟化资源的特征分析以及目前网络资源管理的现状,确定虚拟化资源的管理应该满足以下准则:(1) 所有虚拟化资源都是可监控和可管理的;(2) 请求的参数是可监控的,监控结果可以被证实;(3) 通过网络标签可以对虚拟化资源进行分配和调度;(4) 资源能高效地按需提供服务;(5) 资源具有更高的安全性。

2.3 分布式数据存储

分布式数据存储技术包含非结构化数据存储和结构化数据存储。其中,非结构化数据存储主要采用文件存储和对象存储技术,而结构化数据存储主要采用分布式数据库技术,特别是 NoSQL 数据库。下面分别阐述这三方面的技术:
(1)分布式文件系统
为了存储和管理云计算中的海量数据,Google 提出分布式文件系统 GFS(Google File System)。GFS 成为分布式文件系统的典型案例。Apache Hadoop项目的 HDFS 实现了 GFS 的开源版本。

Google GFS 是一个大规模分布式文件存储系统,但是和传统分布式文件存储系统不同的是,GFS 在设计之初就考虑到云计算环境的典型特点:结点由廉价不可靠 PC 构建,因而硬件失败是一种常态而非特例;数据规模很大,因而相应的文件 I/O 单位要重新设计;大部分数据更新操作为数据追加,如何提高数据追加的性能成为性能优化的关键。相应的 GFS 在设计上有以下特点:

  • 利用多副本自动复制技术,用软件的可靠性来弥补硬件可靠性的不足。
  • 将元数据和用户数据分开,用单点或少量的元数据服务器进行元数据管理,大量的用户数据结点存储分块的用户数据,规模可以达到 PB 级。
  • 面向一次写多次读的数据处理应用,将存储与计算结合在一起,利用分布式文件系统中数据的位置相关性进行高效的并行计算。

GFS/HDFS 非常适于进行以大文件形式存储的海量数据的并行处理,但是,当文件系统的文件数量持续上升时,元数据服务器的可扩展性面临极限。以 HDFS为例,只能支持千万级的文件数量,如果用于存储互联网应用的小文件则有困难。在这种应用场景面前,分布式对象存储系统更为有效。

(2)分布式对象存储系统
与分布式文件系统不同,分布式对象存储系统不包含树状名称空间(Namespace),因此在数量增长时可以更有效地将元数据平衡地分布到多个结点上,提供理论上无限的可扩展性。 对象存储系统是传统的块设备的延伸,具有更高的“智能”:上层通过对象 ID 来访问对象,而不需要了解对象的具体空间分布情况。相对于分布式文件系统,在支撑互联网服务时,对象存储系统具有如下优势:

  • 相对于文件系统的复杂 API,分布式对象存储系统仅提供基于对象的创建、读取、更新、删除的简单接口,在使用时更方便而且语义没有歧义。
  • 对象分布在一个平坦的空间中,而非文件系统那样的名称空间之中,这提供了很大的管理灵活性:既可以在所有对象之上构建树状逻辑结构;也可以直接用平坦的空间;还可以只在部分对象之上构建树状逻辑结构;甚至可以在同一组对象之上构建多个名称空间。Amazon 的 S3 就属于对象存储服务。S3 通过基于 Http REST 的接口进行数据访问,按照用量和流量进行计费,其他的云服务商也都提供了类似的接口服务。很多互联网服务商,如 Facebook 等也都构建了对象存储系统,用于存储图片、照片等小型文件。
    (3)分布式数据库管理系统
    传统的单机数据库采用“向上扩展”的思路来解决计算能力和存储能力的问题,即增加 CPU 处理能力、内存和磁盘数量。这种系统目前最大能够支持几个 TB 数据的存储和处理,远不能满足实际需求。采用集群设计的分布式数据库逐步成为主流。传统的集群数据库的解决方案大体分为以下两类:
  • Share-Everything(Share-Something)。数据库结点之间共享资源,例如磁盘、缓存等。当结点数量增大时,结点之间的通信将成为瓶颈;而且处理各个结点对数据的访问控制也为事务处理带来麻烦。
  • Share-Nothing。所有的数据库服务器之间并不共享任何信息。当任意一个结点接到查询任务时,都会将任务分解到其他所有的结点上面,每个结点单独处理并返回结果。但由于每个结点容纳的数据和规模并不相同,因此如何保证一个查询能够被均衡地分配到集群中成为一个关键问题。同时,结点在运算时可能从其他结点获取数据,这同样也延长了数据处理时间。在处理数据更新请求时,Share-Nothing 数据库需要保证
    多结点的数据一致性,需要快速准确定位到数据所在结点。

云计算环境下,大部分应用不需要支持完整的 SQL 语义,而只需要Key-Value形式或略复杂的查询语义。在这样的背景下,进一步简化的各种NoSQL数据库成为云计算中的结构化数据存储的重要技术。

Google 的 BigTable 是一个典型的分布式结构化数据存储系统。在表中,数据是以“列族”为单位组织的,列族用一个单一的键值作为索引,通过这个键值,数据和对数据的操作都可以被分布到多个结点上进行。

在开源社区中,Apache HBase 使用了和 BigTable 类似的结构,基于 Hadoop平台提供 BigTable 的数据模型,而Cassandra 则采用了亚马逊 Dynamo 的基于DHT 的完全分布式结构,实现更好的可扩展性。

2.4 并行计算模式

并行计算模型是提高海量数据处理效率的常用方法。常用的并行计算模型主要包括两类:一类是面向高性能计算的,如 MPI (Message Passing Interface)模型;另一类是面向互联网数据密集型应用的并行编程模型,如 Google 的MapReduce 模型、微软的 Dryad 模型。第二类并行计算模型更适用于云计算环境。云计算下把海量数据分布到多个结点(通常是廉价不可靠的 PC 机)上,将计算并行化,利用多机的计算资源,加快数据处理的速度。

云计算下的并行处理需要考虑以下关键问题:1)任务划分,使得任务能更加优化的被分解和并行执行;2)任务调度,操作尽量本地化,以保证在网络资源有限的情况下,最大程度地将计算任务在本地执行,减少通信开销;3)自动容错处理机制,保证在结点失效的情况下处理任务仍然能够正确地执行。下面分别阐述这三方面内容:

  • 任务划分: 在 MapReduce 或 Dryad 中,数据以块的形式存储在集群的各个结点上,每个计算任务只需处理一部分数据,这样自然地实现了海量数据的并行处理。这种简单的根据存储位置进行任务划分的方式,只适用于不存在数据依赖关系的计算。而对于存在依赖关系的计算,MapReduce 将复杂的计算转化为一系列单一的 Map/Reduce 计算,串联起来完成多个 Map/Reduce 任务来实现复杂计算。转化有两者方式:手工转化和利用 Pig、Hive 等工具进行自动转化。Dyrad 将存在依赖关系的复杂计算表示为一个有向无环图,利用图论对计算自动进行依赖性分析和优化,最后转化为高效的子任务执行。
  • 任务调度: 一个集群系统的存储和计算资源有两种组织方式:一是将存储和计算资源部署在相同结点上;另一种是存储和计算结点分开部署。MapReduce 和 Dryad 采用前者,MPI 采用后者。MapReduce 和 Dryad 在调度任务时认为“移动计算比移动数据更合算”,优先把计算任务调度到数据所在的结点或者就近的结点,这样在进行计算时,大部分的输入数据都能从本地读取,减少了网络带宽的消耗,提高了整个系统的吞吐量。另外,MapReduce 对于由于各种原因(例如硬盘出错)造成执行非常慢的子任务采用了备用任务的机制,当MapReduce 操作接近完成时,调度备用任务进程来执行剩下的执行非常慢的子任务。
  • 自动容错处理机制: 常用恢复机制有两类:任务重做(Task Re-execute)和检查点(Checkpoint)回滚方式。这两种机制各有优缺点,前者实现非常简单,但是重做的代价比较大;后者实现较复杂,需要周期性地记录所有进程状态,但是恢复较快。MapReduce 和 Dryad 主要采用任务重做的方式来处理结点的失效,而 MPI 通常采用检查点回滚的机制。

2.5 用户交互技术

随着云计算的逐步普及,浏览器已经不仅仅是一个客户端的软件,而逐步演变为承载着互联网的平台。浏览器与云计算的整合技术主要体现在两个方面:浏览器网络化与浏览器云服务。

国内各家浏览器都将网络化作为其功能的标配之一,主要功能体现在用户可以登录浏览器,并通过自己的帐号将个性化数据同步到服务端。用户在任何地方,只需要登录自己的帐号,就能够同步更新所有的个性内容,包括浏览器选项配置、收藏夹、网址记录、智能填表、密码保存等。

目前的浏览器云服务主要体现在 P2P 下载、视频加速等单独的客户端软件中,主要的应用研究方向包括:基于浏览器的 P2P 下载、视频加速、分布式计算、多任务协同工作等。在多任务协同工作方面,AJAX(Asynchronous JavaScript and XML,异步 JavaScript 和 XML)是一种创建交互式网页应用的网页开发技术,改变了传统网页的交互方式,改进了交互体验。

2.6 安全管理

安全问题是用户是否选择云计算的主要顾虑之一。传统集中式管理方式下也有安全问题,云计算的多租户、分布性、对网络和服务提供者的依赖性,为安全问题带来新的挑战。其中,主要的数据安全问题和风险包括:
(1)数据存储及访问控制:包括如何有效存储数据以避免数据丢失或损坏,如何避免数据被非法访问和篡改,如何对多租户应用进行数据隔离,如何避免数据服务被阻塞,如何确保云端退役(at rest)数据的妥善保管或销毁等等。
(2)数据传输保护:包括如何避免数据被窃取或攻击,如何保证数据在分布式应用中有效传递等。
(3)数据隐私及敏感信息保护:包括如何保护数据所有权、并可根据需要提供给受信方使用,如何将个人身份信息及敏感数据挪到云端使用等。
(4)数据可用性:包括如何提供稳定可靠的数据服务以保证业务的持续性,如何进行有效的数据容灾及恢复等。
(5)依从性管理:包括如何保证数据服务及管理符合法律及政策的要求等。

相应的数据安全管理技术包括:
(1)数据保护及隐私(Data Protection and Privacy):包括虚拟镜像安全、数据加密及解密、数据验证、密钥管理、数据恢复、云迁移的数据安全等。
(2)身份及访问管理(Identity and Access Management,简称 IAM):包括身份验证、目录服务、联邦身份鉴别/单点登陆(Single Sign on,简称 SSO)、个人身份信息保护、安全断言置标语言、虚拟资源访问、多租用数据授权、基于角色的数据访问、云防火墙技术等。
(3)数据传输(Data Transportation):包括传输加密及解密、密钥管理、信任管理等。
(4)可用性管理(Availability Management):包括单点失败(Single Point of Failure,简称 SPoF)、主机防攻击、容灾保护等。
(5)日志管理(Log Management):包括日志系统、可用性监控、流量监控、数据完整性监控、网络入侵监控等。
(6)审计管理(Audit Management):包括审计信任管理、审计数据加密等。
(7)依从性管理(Compliance Management):包括确保数据存储和使用等符合相关的风险管理和安全管理的规定要求。

2.7 运营支撑管理

下面从云的部署、负载管理和监控、计量计费、服务水平协议(Service Level Agreement,简称 SLA)、能效评测这五个方面分别阐述云的运营管理。

(1)云的部署
云的部署包括两个方面:云本身的部署和应用的部署。如前所述,云一方面规模巨大,另一方面要求很好的服务健壮性、可扩展性和安全性。因此,云的部署是一个系统性的工程,涉及到机房建设、网络优化、硬件选型、软件系统开发和测试、运维等各个方面。为了保证服务的健壮性,需要将云以一定冗余部署在不同地域的若干机房。为了应对规模的不断增长,云要具备便利的、近乎无限的扩展能力,因而从数据存储层、应用业务层到接入层都需要采用相应的措施。为了保护云及其应用的安全,需要建立起各个层次的信息安全机制。除此之外,还需要部署一些辅助的子系统,如管理信息系统(MIS)、数据统计系统、安全系统、监控和计费系统等,他们帮助云的部署和运营管理达到高度自动化和智能化的程度。

云本身的部署对云的用户来说是透明的。一个设计良好的云,应使得应用的部署对用户也是透明和便利的。这依赖云提供部署工具(或 API)帮助用户自动完成应用的部署。一个完整的部署流程通常包括注册、上传、部署和发布四个过程。

(2)负载管理和监控
云的负载管理和监控是一种大规模集群的负载管理和监控技术。在单个结点粒度,它需要能够实时地监控集群中每个结点的负载状态,报告负载的异常和结点故障,对出现过载或故障的结点采取既定的预案。在集群整体粒度,通过对单个结点、单个子系统的信息进行汇总和计算,近乎实时地得到集群的整
体负载和监控信息,为运维、调度和成本提供决策。与传统的集群负载管理和监控相比,云对负载管理和监控有新的要求:首先,新增了应用粒度,即以应用为粒度来汇总和计算该应用的负载和监控信息,并以应用为粒度进行负载管理。应用粒度是可以再细分的,在下面的“计量计费”一节中会提到,粒度甚
至精细到 API 调用的粒度。其次,监控信息的展示和查询现在要作为一项服务提供给用户,而不仅仅是少量的专业集群运维人员,这需要高性能的数据流分析处理平台的支持。

(3)计量计费
云的主要商业运营模式是采取按量计费的收费方式,即便对于私有云,其运营企业或组织也可能有按不同成本中心进行成本核算的需求。为了精确的度量“用了多少”,就需要准确的、及时的计算云上的每一个应用服务使用了多少资源,这称为服务计量。

服务计量是一个云的支撑子系统,它独立于具体的应用服务,像监控一样能够在后台自动地统计和计算每一个应用在一定时间点的资源使用情况。对于资源的衡量维度主要是:应用的上行(in)/下行(out)流量、外部请求响应次数、执行请求所花费的 CPU 时间、临时和永久数据存储所占据的存储空间、内部服
务 API 调用次数等。也可认为,任何应用使用或消耗的云的资源,只要可以被准确的量化,就可以作为一种维度来计量。实践中,计量通常既可以用单位时间内资源使用的多少来衡量,如每天多少字节流量;也可以用累积的总使用量来衡量,如数据所占用的存储空间字节大小。

在计量的基础上,选取若干合适的维度组合,制定相应的计费策略,就能够进行计费。计费子系统将计量子系统的输出作为输入,并将计费结果写入帐号子系统的财务信息相关模块,完成计费。计费子系统还产生可供审计和查询的计费数据。

(4)SLA
SLA 是在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。对于云服务而言,SLA 是必不可缺的,因为用户对云服务的性能和可靠性有不同的要求。从用户的角度而言,也需要从云服务提供商处得到具有法律效力的承诺,来保证支付费用之后得到应有的服务质量。从目前的实践看,国外的大型云服务提供商均提供了 SLA。

一个完整的 SLA 同时也是一个具有法律效力的合同文件,它包括所涉及的当事人、协定条款、违约的处罚、费用和仲裁机构等。当事人通常是云服务提供商与用户。协定条款包含对服务质量的定义和承诺。服务质量一般包括性能、稳定性等指标,如月均稳定性指标、响应时间、故障解决时间等。实际上,SLA的保障是以一系列服务水平目标(Service Level Object,简称 SLO)的形式定义的。SLO 是一个或多个有限定的服务组件的测量的组合。一个 SLO 被实现是指那些有限定的组件的测量值在限定范围里。通过前述的对云及应用的监控和计
量,可以计算哪些 SLO 被实现或未被实现,如果一个 SLO 未被实现,即 SLA 的承诺未能履行,就可以按照“违约的处罚”对当事人(一般是云服务提供商)进行处罚。通常采取的方法是减免用户已缴纳或将缴纳的费用。

(5)能效评测
云计算提出的初衷是将资源和数据尽可能放在云中,通过资源共享、虚拟化技术和按需使用的方式提高资源利用率,降低能源消耗。但是在实际应用中,大型数据中心的散热问题造成了大量的能源消耗。如何有效降低能源消耗构建绿色数据中心成为云服务提供商迫切需要解决的问题之一。

云计算数据中心的能耗测试评价按照不同的维度有不同测试手段和方法。针对传统的数据中心它有显性评价体系和隐性评价体系两个方面。

显性的能耗测试评价可以参照传统数据中心的评价体系,具体包括:能源效率指标、IT 设备的能效比、IT 设备的工作温度和湿度范围、机房基础设施的利用率指标。能源效率指标用于评估一个数据中心使用的能源中有多少用于生产,还有多少被浪费。在这方面,绿色网格组织的电能利用率 (Power Usage Effectiveness,简称 PUE)指标影响力较大。PUE 值越小,意味着机房的节能性越好。目前,国内绝大多数的数据中心 PUE 值为 3 左右,而欧美一些国家数据中心的 PUE 平均值为 2 左右。

隐性能耗测试评价包括云计算服务模式节省了多少社会资源,由于客户需求的不同,云吞吐量的变化节省了多少 IT 设备的投资和资源的重复建设。这些的测试评价很多时候是不能量化或者不能够进行精准地评价。为了实现对数据中心能源的自动调节,满足相关的节能要求,一些 IT 厂商和标准化组织纷纷推出节能技术及能耗检测工具,如惠普公司的动态功率调整技术(Dynamic Power Saver,简称 DPS)、IBM 的 Provisioning 软件。