AI超算“攒机”时代到来：为降低算力成本，这家公司牵头开放硬件标准

转载

SAP虾客 2020-09-27 13:16:51

今年AI领域最火的是什么？

毫无疑问是GPT-3，它能写小说、能与人聊天、能设计网页、还能下象棋，堪称迄今为止最“全能”的AI模型。

但是这个强大的AI模型却不被看做算法的胜利，而是“暴力美学”、一场“富人的游戏”。

有人估算过，GPT-3光是训练成本就在460万美元以上，还不包括微软为训练它建设了一个5亿美元的超算中心。

微软这个超算中心装载了一万张英伟达GPU，训练GPT-3消耗了它355个GPU年的算力。

如果中国也要开发自己的GPT-3，凭借现在的技术能做出来？

答案是：我们已经具备一定的条件了。

AI软件方面，国内有百度、阿里等开源框架，中国的NLP（自然语言处理）技术起步不算晚，甚至搜狗、第四范式、百度NLP算法已经多次占据测试榜首，且成功商业化。

训练AI的硬件中国也不缺乏，甚至在国际上还略有优势。据2020年6月最新数据，中国拥有全球超算Top500中的226台，占比达45.2%，超过其他任何国家。

有算法、有硬件，那么要做出GPT-3最大的障碍就是经济成本了。

因为中国少有能像微软那般“财大气粗”组建一个超级算力中心，国内AI硬件又不够开放，算力得不到有效的调配和释放。

其实不仅是GPT-3，即使是规模更小的AI模型，动辄耗费几十乃至上百张AI加速卡，对很多企业来说也是“不能承受之重”。

尤其是比开发GPT-3更现实的问题——AI产业化——方兴未艾，大量使用AI硬件的场景只会更多。

对此问题的解决之道，国内最大的AI服务器提供商浪潮给出的方法是：开放硬件，降低成本。

据估计，未来人工智能将占据80%以上的计算需求，需要有开放的AI算力中心承载这种需求，即智算中心。

智算中心：做最开放AI基础设施

开源这件事，在软件行业已经取得了巨大成功。

开源软件近二十年来为IT行业带来了革命性的变化，比如Linux、Android一举占领市场，而很多闭源操作系统日渐式微乃至消亡。

而硬件开源在国际上才刚刚起步。

2011年，由于业务的飞速发展，国外社交网络巨头Facebook牵头发起了OCP（开放计算项目）。

仅仅4年时间，OCP就为Facebook节省了20亿美元的成本，数据中心电费降低了20%。谷歌、微软、IBM、阿里、浪潮都加入了该社区。

开放计算的优势不仅仅是降低成本、节省电费、提高投资回报率，更重要的是，它作为一种新的协作模式，可以推动AI等前沿技术的标准化与产业化。

在GPT-3诞生前的几个月，浪潮已经有了这样改造AI产业的想法。4月9日，IPF2020浪潮云数据中心合作伙伴大会上，浪潮首次提出了“智算中心”的概念。

浪潮认为，智算中心应该满足三大条件：开放标准、集约高效、普适普惠。就是每家企业都能以更低门槛用上高性能计算资源。

当前AI硬件加速器处于各自为政的局面，不同厂商的产品接口、协议都不尽相同。

为了解决AI加速芯片的统一标准问题，让不同加速器在同一块服务器上运行。浪潮4月推出了第一款符合OAM（OCP加速模块）标准的AI开放计算系统MX1，致力于推动开放计算与AI的融合。

第二点集约高效，则是在开放标准基础上的更高要求。开放标准会带来规模空前的集约效应与高效的融合架构。

融合架构的最终目的是实现“智算中心即计算机”，CPU、内存、AI加速器、I/O等硬件资源完全池化，让它们在软件的统一调配下，实现超大规模的扩展。

这方面，国外的AI巨头英伟达已经有相当丰富的经验，甚至今年还开源了大规模并行计算模型“威震天”。

作为AI时代最重要的芯片公司，英伟达显然已经意识到，开源不仅不会损害自身利益，反而会形成规模效应，实现整个产业的共赢。开放标准后，普适普惠是必然的结果。

过去十年，手机行业正是凭借软件开放、硬件整合的能力，让普通消费者享受到了智能手机普及的福利。

AI产业也在经历类似的过程，软件与硬件的开源一定会让每家意在用上AI的企业享受到实惠。

打造算力“免费午餐”

软件开源最大的实惠即“免费”，这意味着任何人都可以免费查看、修改、使用代码，而硬件开放的实惠，是小企业也可以免费使用昂贵的计算设备运行其业务。

浪潮AI&HPC产品线总经理刘军曾说过，算力是AI时代“免费的午餐”。

回顾GPT-3的诞生，它只比前辈GPT-2晚一年，比前代的参数量增加了100倍，就能取得如此惊人的成就，靠的不是算法的提升，而是算力的加成。

如果改进算法，一定会投入大量的研发，相比之前，算力不就是简单直接的“免费午餐”吗？

之所以企业不觉得免费，那是因为算力的成本还不够低。所以有些企业选择了市场上成熟的AI解决方案，无需AI开发经验就能快速部署AI模型。

刘军表示，对于产业用户来说，用上性价比更高的AI算力，开放的网络架构及服务是必须的，同时保证了未来的可扩展性。

就如同PC时代的组装机，每个组件都掌握在用户自己手中，在技术上可控，定制化程度高，成本低廉。

只有硬件成本低了，算力才会成为“免费的午餐”。

浪潮智算中心已崭露头角

智算中心推出半年，浪潮智算中心的算力得到权威标准认可，同时在各行各业发挥出重要作用。

面向智算中心，浪潮提出要生产算力、聚合算力、调度算力、释放算力。

通过自研的AI框架LMS，浪潮训练的NLP模型参数突破70亿，超过了GPT-2三倍多。

在今年7月29日公布的全球权威AI测试基准，MLPerf v0.7训练榜单上，浪潮NF5488A5服务器创下了单服务器最快性能记录，高居榜首。

浪潮还东南大学合作，据张竞慧教授介绍，东南大学依靠算力中心推动前沿科学研究，依托(CPU+Openstack+GPU)架构，提供高性能计算、云计算以及人工智能计算等共享服务，处理太空观测高分辨率影像，已经在物理学顶级期刊PRL上发表了多篇论文。

在金融领域，交通银行通过浪潮AIStation开发平台，资源利用效率提升30%；在智能制造领域，百度与浪潮合作开发的装置，将2~3天的钢质检系统工作量减少至2小时，识别准确率超过99%。

此外浪潮的智算中心与5G结合，提供了云端训练、边缘推理的新应用场景。

浪潮智算中心建设的脚步没有停歇，目前正在济南建设的“中国算谷”，致力于成为全球算力产业新高地，带动山东传统企业智能化改造和升级，计划建成E级计算系统。

AI时代的“发电厂”

AI模型发展一日千里，模型越来越大，对算力要求也越高，硬件进步给算法带来福利。

OpenAI去年的报告指出，AI计算量每年增长10倍。从2012年至今，最先进AI模型对计算量的需求已经增长了30万倍，若按照摩尔定理，与此同时芯片算力只增长了7倍。

对算力的爆炸式一方面靠AI加速芯片的改进，另一方面靠硬件的“暴力”堆砌。

然而单个用户难以自建强大算力，则需要智算中心来帮忙。未来，智算中心会像发电厂一样，产生大量的算力输送到“千家万户”。

电力时代有充足的发电量，就能驱动更多、更强的电气设施。AI时代有更多低廉的算力资源，才能催生出更多像GPT-3一样“暴力”AI模型，推动AI的产业化。

如果中国也要研发像GPT-3一样的AI模型，用这样的AI模型驱动产业变革，那么一定要降低算力资源的TCO。

浪潮希望在这个中发挥主导作用，所以推出智算中心。浪潮也具有这样的底气，因为他们已经占据了中国50%的AI计算中心算力，未来一定会是“新基建”的AI基石。

在这方面，国外已经有许多先进的经验，英特尔、微软、谷歌都在以开放的姿态融合更多新的AI硬件，把更强大的算力贡献给产业。

回到国内，如果浪潮能把智算中心的算力供给全行业使用，以国内庞大市场，一定能催生更强大AI模型的诞生。

到时候，不仅能产生与GPT-3类似的AI模型，我们还会看到过更多AI技术的商业化，让我们的生活处处充满AI。

—完—