一、前言
本综述首次系统地概述了Transformers的有效训练策略,涵盖了加速算法和硬件的最新进展,重点是前者。论文分析并比较了在训练期间为中间张量节省计算和存储成本的方法,以及硬件/算法协同设计技术。最后讨论了未来研究的挑战和前景。
题目:A Survey on Efficient Training of Transformers
作者单位:莫纳什大学、浙江大学
深度学习,也称为深度神经网络(DNN),是机器学习的一种变革性方法。它彻底改变了机器学习和人工智能,被广泛认为是引领第四次工业革命的技术。总的来说,深度学习的巨大成功归功于它对现有大量计算资源和大量标记数据的有效利用。尽管最近的发展带来了巨大的兴奋,但深度学习模型,特别是Transformer,已经变得非常庞大和计算密集,这导致了两个基本挑战。
第一个问题涉及训练基于Transformer大模型的密集计算。一项广泛讨论的深度学习模型能源研究[74]估计,训练大型语言模型(LLM)会产生626155磅的二氧化碳,相当于五辆汽车的终生排放量;随着模型越来越大,它们对计算的需求超过了硬件效率的提高。例如,superstar GPT-3[9]由5000亿个单词训练,并有1750亿个参数。值得注意的是,根据GPT-3的技术概述,单次训练需要355 GPU年,成本至少为460万美元,V100理论上为28 TFLOPS,3年保留云定价最低。因此,使深度学习在计算中成立以及与绿色AI相关的能耗变得极为重要。
第二个问题是训练内存呈指数增长,与基于注意力的模型大小成正比。例如,文献中最大的语言模型从2018年BERTlarge[43]的345M增长到现在的数千亿,如MT-NLG[71]等模型配备了530B参数。因此,这些SOTA大规模模型需要内存高效的训练技术,以减少存储中间张量和跨加速器的数据交换(通信)的内存占用,同时确保高处理元件(PE)利用率。
本文回顾了用于训练基于注意力的模型(即Transformer)的提高计算和内存效率的通用技术,如图1所示。论文通过技术创新和主要用例来描述它们,总结它们,并绘制它们之间的联系。论文主要对提高Transformer训练效率的算法创新感兴趣,并简要讨论了硬件/算法代码设计的进展。并将硬件加速器设计的回顾作为未来的工作。