生物信息学网格建立以前,一所大学的研究人员如果想比对一段基因,就必须逐一向拥有基因库的所有高校申请比对,既费时又费力。生物信息学网格建立之后,研究人员只要将基因比对的申请提交给生物信息学网格即可,由生物信息学网格完成所有的计算、比对工作,然后将结果直接反馈给申请者。生物信息学网格作为中国教育科研网格(ChinaGrid)的一种典型应用,在教育科研领域正发挥着越来越重要的作用。如今,全国每天有3万-5万人在使用生物信息学网格。
在8月21日举行的ChinaGrid第四届学术年会上,ChinaGrid专家组副组长、清华大学教授郑纬民介绍说:“ChinaGrid一期建设完成了网格技术平台架构的搭建和验证,实现了资源的共享,对高校的教育科研特别是数据库查找等应用起到了非常好的促进作用。ChinaGrid一期建立了图像处理网格、生物信息学网格、大学课程在线网格、计算流体力学网格、海量信息处理网格等五大网格应用,对高性能计算的应用具有非常大的推动作用。”
网格与云计算异曲同工
ChinaGrid从2002年8月开始筹备,2003年1月正式进入建设阶段,连通了国内13个省市的20多所著名学校,其中12所高校作为最初参建者,都建立基于高性能计算系统的ChinaGrid主节点,并协办开发了核心的ChinaGrid公共支撑平台软件(CGSP)。不过,由于各节点的建设全部由参与建设的高校自筹资金,资金相对缺乏,而且各节点的计算资源主要是各高校自用,从某种程度上说,使得ChinaGrid资源的全面共享和应用的深入发展受到了一定限制。
2009年,ChinaGrid将启动二期建设,目标是建立6个大型的数据中心,同时建立涉及材料、能源、气候环境、媒体计算、网络行为等领域的8个重点学科网格,并且要开发一些用于网格的公共软件,更有效地实现集群的调度。
“由于资金有限,ChinaGrid二期只能先建立8个学科网格。在ChinaGrid二期建设过程中,我们将把与各学科相关的资料、开源工具等都放到网格中去,为老师、学生提供一个资源库。另外,我们要充分利用ChinaGrid网格计算平台的优势,为那些计算资源缺乏的学校提供网格计算资源。”郑纬民介绍说,“目前,ChinaGrid主要是为教育系统内部的用户提供教育和科研方面的服务。”
在学术年会上,来自墨尔本大学的Rajkumar Buyya博士介绍了云计算技术的最新发展情况,并阐述了建立以市场为导向的云计算架构的理论。今天,关于云计算的定义众说纷纭。Rajkumar Buyya认为云计算具有以下特征:云是一种并行、分布式系统;云是通过内部连接和虚拟化组成的计算系统;云可以实现自动配置;云表现为一个或更多统一的计算资源;云的最终落脚点是服务。虽然云计算还要解决很多问题,如安全、可用性、风险管理、可靠性、可扩展性等,但是Rajkumar Buyya认为,建立以满足客户需求和市场为导向的云计算架构已经变成了现实。
“未来,人们还可以建立一个云的网格,跨越云及其他IT资源,对时间和成本进行优化,找到资源与价格的平衡点。”Rajkumar Buyya表示。
“从技术实现上看,云与网格的差别不大,都是并行的、分布式的系统。”谈到网格与云计算的关系,郑纬民表示,“网格是将所有的计算中心连接起来做事,强调的是资源共享,而云计算强调的是服务;网格的特点是利用多个地方的资源,强调通用性,而云计算大多表现为专用服务,以一个地方或一种服务为主,比如Google就是一朵搜索云,ChinaGrid二期要建设的8个学科网格也可以看作是8朵云。”
高性能计算超越摩尔定律
ChinaGrid的建设目标是将网格计算与高性能计算技术融合起来,为国内高校的教学和科研工作提供先进的技术服务平台。从以前只有少数科研机构采用高性能计算机到现在高性能计算机已经成为许多院校必备的基础设施,高性能计算机大规模进入中国高校正是高性能计算走向商业化、普及化的必然结果,也为英特尔在高性能计算领域的快速发展提供了契机。在2008年中国高性能计算机性能TOP100排行榜中,上榜的国内高校的高性能计算机多数采用了英特尔架构。
“目前,全球1/5的CPU都是用于高性能计算。”英特尔公司服务器平台事业部高性能计算业务总经理Richard Dracott表示,“高性能计算领域是IT新技术的试验田,比如Linux、集群、InfiniBand等新技术的应用都是从高性能计算开始的。人们对于性能的追求是永无止境的。高性能计算的发展已经超越了摩尔定律,它将引领着未来IT技术的发展。”
ChinaGrid一期部署的5种应用网格对计算性能的要求十分苛刻,比如海量信息处理网格、计算流体力学网格上运行的应用本身就是传统的高性能计算应用。随着二期8个学科网格的加入,用户必然对ChinaGrid各节点的高性能计算系统提出更高的性能要求,以获得更佳的服务响应速度。以高性能计算机的核心CPU为例,英特尔在产品上不断推陈出新,刚发布不久的至强5500的计算性能是上一代至强5400的两倍,而且通过引入英特尔快速通道互联技术及集成DDR3内存控制器,使其服务器平台上内存及芯片组之间的数据通信带宽也比至强5400提高了数倍。这些新特性使得至强5500无论在面对运算敏感型还是带宽敏感型的计算时都能游刃有余。在2009年6月公布的TOP500排行榜上,33台基于英特尔Nehalem的高性能计算机上榜,其中有两台还进入了TOP20,而这一成绩是在Nehalem发布仅三个月后取得的。据了解,南京大学已经准备采用至强5500构建计算能力为35万亿次的高性能计算系统。
据Richard Dracott透露,2010年,英特尔将推出Nehalem EX,其性能、内存比上一代至强7400都有大幅度提高,不仅可以应用于高性能计算,也可以用于普通的商业应用。Richard Dracott表示:“Nehalem EX的推出将开创高性能计算领域的新格局。以前,胖节点系统的应用于并不多,而Nehalem EX最突出的特点在于,不需要节点连接器即可轻松构建8路系统,这必将促进胖节点的部署。在高性能计算系统中,单节点一定要保证最高的性能。胖节点的好处很多,比如减少节点总数,从而减少连接和进程,系统更稳定,而且可以有效节省能耗。”
高性能计算机是一种工具
在中国,教育科研领域一直是高性能计算发展的源动力。但是近两年,在全球范围内,高性能计算的应用发生了很大变化,高性能计算与金融、制造、动漫等商业应用的结合越来越紧密,其增长速度也超过了教育科研领域。在中国,这种趋势也越来越明显。Richard Dracott认为,由于传统制造业融入了更多设计的部分,未来制造业将成为中国高性能计算领域一个新的增长点。
ChinaGrid的长远目标是建成全国乃至全球最大、最先进和最实用的网格系统之一,不仅覆盖面高等院校,还将包括全国中、小学校和其他教育科研机构。ChinaGrid建设和应用规模的扩大,必将引发更复杂和多样化的需求,用户也将面临更多挑战,比如更高的计算性能,在性能提升与节能减排之间寻找平衡点,应对处理器多核架构普及可能带来的软件开发及优化方面的压力等。
在构建高性能计算系统时,用户可以参考以下几项标准:系统是否具有出众的性能,尤其是浮点计算和并行处理能力;系统是否拥有易管理性、节能性;系统是否易于部署、应用和扩展;系统能否在多核架构下并行化软件的开发。
Richard Dracott表示:“在高性能计算领域,英特尔不仅能提供CPU,更重要的是提供一个平台,在I/O、浮点计算能力、内存带宽等多个维度实现技术创新。在数据中心的节能降耗方面,英特尔提出了每年提升50%能效的目标。通过高性能处理器、I/O技术创新、半宽板、能耗管理和数据中心技术创新,英特尔可以在改善数据中心能耗方面做出更大贡献。此外,英特尔在全球拥有一个几百人的团队,专门负责与高性能计算有关的技术开发和服务。”
高性能计算机就是一种工具,它是为应用服务的。在澳大利亚,职业教育发展十分迅速,许多职业学校已经抛弃自建实践基地的做法,更多地采用远程电子课件教学。应用的创新对于高性能计算的发展来说也是一种促进。对于ChinaGrid来说,已经拥有了较好的基础设施资源,关键是如何长期、高效地运营,实现更好的投资回报。除了为教育科研领域的专家、用户服务以外,ChinaGrid能否对外开放自己的资源,与商业应用相结合是一个值得深入探讨的问题。