今年AI领域最火的是什么?

毫无疑问是GPT-3,它能写小说、能与人聊天、能设计网页、还能下象棋,堪称迄今为止最“全能”的AI模型。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别

 

但是这个强大的AI模型却不被看做算法的胜利,而是“暴力美学”、一场“富人的游戏”。

有人估算过,GPT-3光是训练成本就在460万美元以上,还不包括微软为训练它建设了一个5亿美元的超算中心。

微软这个超算中心装载了一万张英伟达GPU,训练GPT-3消耗了它355个GPU年的算力。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_02

 

如果中国也要开发自己的GPT-3,凭借现在的技术能做出来?

答案是:我们已经具备一定的条件了。

AI软件方面,国内有百度、阿里等开源框架,中国的NLP(自然语言处理)技术起步不算晚,甚至搜狗、第四范式、百度NLP算法已经多次占据测试榜首,且成功商业化。

训练AI的硬件中国也不缺乏,甚至在国际上还略有优势。据2020年6月最新数据,中国拥有全球超算Top500中的226台,占比达45.2%,超过其他任何国家。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_03

 

有算法、有硬件,那么要做出GPT-3最大的障碍就是经济成本了。

因为中国少有能像微软那般“财大气粗”组建一个超级算力中心,国内AI硬件又不够开放,算力得不到有效的调配和释放。

其实不仅是GPT-3,即使是规模更小的AI模型,动辄耗费几十乃至上百张AI加速卡,对很多企业来说也是“不能承受之重”。

尤其是比开发GPT-3更现实的问题——AI产业化——方兴未艾,大量使用AI硬件的场景只会更多。

对此问题的解决之道,国内最大的AI服务器提供商浪潮给出的方法是:开放硬件,降低成本。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_04

 

据估计,未来人工智能将占据80%以上的计算需求,需要有开放的AI算力中心承载这种需求,即智算中心。

智算中心:做最开放AI基础设施

开源这件事,在软件行业已经取得了巨大成功。

开源软件近二十年来为IT行业带来了革命性的变化,比如Linux、Android一举占领市场,而很多闭源操作系统日渐式微乃至消亡。

而硬件开源在国际上才刚刚起步。

2011年,由于业务的飞速发展,国外社交网络巨头Facebook牵头发起了OCP(开放计算项目)。

仅仅4年时间,OCP就为Facebook节省了20亿美元的成本,数据中心电费降低了20%。谷歌、微软、IBM、阿里、浪潮都加入了该社区。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_05

 

开放计算的优势不仅仅是降低成本、节省电费、提高投资回报率,更重要的是,它作为一种新的协作模式,可以推动AI等前沿技术的标准化与产业化。

在GPT-3诞生前的几个月,浪潮已经有了这样改造AI产业的想法。4月9日,IPF2020浪潮云数据中心合作伙伴大会上,浪潮首次提出了“智算中心”的概念。

浪潮认为,智算中心应该满足三大条件:开放标准、集约高效、普适普惠。就是每家企业都能以更低门槛用上高性能计算资源。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_06

 

当前AI硬件加速器处于各自为政的局面,不同厂商的产品接口、协议都不尽相同。

为了解决AI加速芯片的统一标准问题,让不同加速器在同一块服务器上运行。浪潮4月推出了第一款符合OAM(OCP加速模块)标准的AI开放计算系统MX1,致力于推动开放计算与AI的融合。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_07

 

第二点集约高效,则是在开放标准基础上的更高要求。开放标准会带来规模空前的集约效应与高效的融合架构。

融合架构的最终目的是实现“智算中心即计算机”,CPU、内存、AI加速器、I/O等硬件资源完全池化,让它们在软件的统一调配下,实现超大规模的扩展。

这方面,国外的AI巨头英伟达已经有相当丰富的经验,甚至今年还开源了大规模并行计算模型“威震天”。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_08

 

作为AI时代最重要的芯片公司,英伟达显然已经意识到,开源不仅不会损害自身利益,反而会形成规模效应,实现整个产业的共赢。开放标准后,普适普惠是必然的结果。

过去十年,手机行业正是凭借软件开放、硬件整合的能力,让普通消费者享受到了智能手机普及的福利。

AI产业也在经历类似的过程,软件与硬件的开源一定会让每家意在用上AI的企业享受到实惠。

打造算力“免费午餐”

软件开源最大的实惠即“免费”,这意味着任何人都可以免费查看、修改、使用代码,而硬件开放的实惠,是小企业也可以免费使用昂贵的计算设备运行其业务。

浪潮AI&HPC产品线总经理刘军曾说过,算力是AI时代“免费的午餐”。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_09

 

回顾GPT-3的诞生,它只比前辈GPT-2晚一年,比前代的参数量增加了100倍,就能取得如此惊人的成就,靠的不是算法的提升,而是算力的加成。

如果改进算法,一定会投入大量的研发,相比之前,算力不就是简单直接的“免费午餐”吗?

之所以企业不觉得免费,那是因为算力的成本还不够低。所以有些企业选择了市场上成熟的AI解决方案,无需AI开发经验就能快速部署AI模型。

刘军表示,对于产业用户来说,用上性价比更高的AI算力,开放的网络架构及服务是必须的,同时保证了未来的可扩展性。

就如同PC时代的组装机,每个组件都掌握在用户自己手中,在技术上可控,定制化程度高,成本低廉。

只有硬件成本低了,算力才会成为“免费的午餐”。

浪潮智算中心已崭露头角

智算中心推出半年,浪潮智算中心的算力得到权威标准认可,同时在各行各业发挥出重要作用。

面向智算中心,浪潮提出要生产算力、聚合算力、调度算力、释放算力。

通过自研的AI框架LMS,浪潮训练的NLP模型参数突破70亿,超过了GPT-2三倍多。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_10

 

在今年7月29日公布的全球权威AI测试基准,MLPerf v0.7训练榜单上,浪潮NF5488A5服务器创下了单服务器最快性能记录,高居榜首。

浪潮还东南大学合作,据张竞慧教授介绍,东南大学依靠算力中心推动前沿科学研究,依托(CPU+Openstack+GPU)架构,提供高性能计算、云计算以及人工智能计算等共享服务,处理太空观测高分辨率影像,已经在物理学顶级期刊PRL上发表了多篇论文。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_11

 

在金融领域,交通银行通过浪潮AIStation开发平台,资源利用效率提升30%;在智能制造领域,百度与浪潮合作开发的装置,将2~3天的钢质检系统工作量减少至2小时,识别准确率超过99%。

此外浪潮的智算中心与5G结合,提供了云端训练、边缘推理的新应用场景。

浪潮智算中心建设的脚步没有停歇,目前正在济南建设的“中国算谷”,致力于成为全球算力产业新高地,带动山东传统企业智能化改造和升级,计划建成E级计算系统。

AI时代的“发电厂”

AI模型发展一日千里,模型越来越大,对算力要求也越高,硬件进步给算法带来福利。

OpenAI去年的报告指出,AI计算量每年增长10倍。从2012年至今,最先进AI模型对计算量的需求已经增长了30万倍,若按照摩尔定理,与此同时芯片算力只增长了7倍。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_12

 

对算力的爆炸式一方面靠AI加速芯片的改进,另一方面靠硬件的“暴力”堆砌。

然而单个用户难以自建强大算力,则需要智算中心来帮忙。未来,智算中心会像发电厂一样,产生大量的算力输送到“千家万户”。

电力时代有充足的发电量,就能驱动更多、更强的电气设施。AI时代有更多低廉的算力资源,才能催生出更多像GPT-3一样“暴力”AI模型,推动AI的产业化。

如果中国也要研发像GPT-3一样的AI模型,用这样的AI模型驱动产业变革,那么一定要降低算力资源的TCO。

 

AI超算“攒机”时代到来:为降低算力成本,这家公司牵头开放硬件标准_人脸识别_13

 

浪潮希望在这个中发挥主导作用,所以推出智算中心。浪潮也具有这样的底气,因为他们已经占据了中国50%的AI计算中心算力,未来一定会是“新基建”的AI基石。

在这方面,国外已经有许多先进的经验,英特尔、微软、谷歌都在以开放的姿态融合更多新的AI硬件,把更强大的算力贡献给产业。

回到国内,如果浪潮能把智算中心的算力供给全行业使用,以国内庞大市场,一定能催生更强大AI模型的诞生。

到时候,不仅能产生与GPT-3类似的AI模型,我们还会看到过更多AI技术的商业化,让我们的生活处处充满AI。

—完—