ITPub博客

首页 > 人工智能 > 深度学习 > 微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

深度学习 作者:AIBigbull2050 时间:2020-09-18 12:22:43 0 删除 编辑
  2020-09-15 01:28:30

微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

作者 | 包永刚、陈大鑫

微软于近日发布了DeepSpeed库的更新版本,该库引入了一种新方法来训练包含 数万亿个参数的AI模型,这种模型内部的变量可为预测提供依据。微软称这种技术称为3D并行性,可以适应各种的工作负载需求,特别是为功耗大的超大型模型平衡效率。

具有数十亿个参数的单个大型AI模型在一系列具有挑战性的领域中取得了长足的进步。研究表明它们之所以表现出色,是因为它们可以理解语言、语法、知识、概念和上下文的细微差别,使他们能够总结演讲,在实时游戏聊天中过滤不合适的话语,解析复杂的法律文档,甚至可以通过搜索GitHub生成代码。

但是训练模型需要大量的计算资源。根据2018年OpenAI的分析,从2012年到2018年,在大型AI训练中,计算量的需求增长了300,000倍,也就是大概每3.5个月的时间翻一番,远远超过了摩尔定律的步伐。

增强的DeepSpeed利用三种技术来实现“万亿级”模型训练:数据并行训练、模型并行训练和pipeline并行训练。

训练一个万亿参数的模型将需要至少400个Nvidia 今年最新推出的A100 GPU(每个内存高达40GB),并且Microsoft估计需要4,000台A100以50%的效率运行,大约需要100天才能完成训练。这与微软和OpenAI共同设计的AI超级计算机无并不匹配,后者包含10,000多个显卡,在这样的超大规模下,很难获得很高的计算效率。

3D并行性中的每个维度都被仔细地映射到workers上,以通过利用两个关键的架构属性来实现最大的计算效率。

1、优化节点内和节点间的通信带宽:模型并行性是这三种策略中最大的通信开销,因此,需要优先考虑将模型并行组放置在节点内以利用更大的节点内带宽。在这里,将NVIDIA Megatron-LM应用为模型并行度的张量切片样式。当模型并行性不覆盖节点中的所有工作线程时,数据并行组将放置在节点内。否则,它们将跨节点放置。流水线并行性具有最低的通信量,因此可以跨节点调度流水线阶段,而不受通信带宽的限制。

2、通过通信中的并行性进行带宽放大:每个数据并行组通过流水线和模型并行性通信的梯度大小线性减小,因此总通信量从纯数据并行性开始减少。此外,每个数据并行组在局部工作程序的子集之间独立且并行地执行其通信。最后通过减少通信量以及增加局部性和并行性的组合来放大用于数据并行。

DeepSpeed将大型模型分为四个流水线阶段,分为较小的组件(层)。

微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

每个流水线阶段中的层进一步划分为四个“workers”,它们执行实际的训练。每个管道都在两个并行数据实例之间复制,并且工作程序被映射到具有八个节点(每个节点具有四个GPU)的系统上的GPU,彩色表示同一节点上的GPU。。

微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

由于有了这些和其他性能改进,微软表示,一个万亿参数的AI模型可以减少到仅需要800个Nvidia V100 GPU训练。

DeepSpeed的最新版本还包含了ZeRO-Offload技术,通过利用GPU及其主机CPU上的计算和内存资源,ZeRO-Offload突破了可以使用最少GPU资源进行有效训练的最大模型尺寸的边界。它可以在单个NVIDIA V100 GPU上训练多达130亿个参数的模型,比最新技术大10倍,同时保持每个GPU超过30 teraflops的高训练吞吐量。

微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

图注:可以在单个GPU上使用默认的PyTorch和ZeRO-Offload训练最大的模型。

通过在单个GPU上启用数十亿参数的模型训练,ZeRO-Offload使大型模型训练平民化,从而使资源有限的深度学习从业人员可以使用它。

微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

“这些(DeepSpeed中的新技术)提供了极高的计算、内存和通信效率,并支持数十亿到数万亿个参数的模型训练。” 微软在博客中写道,“这些技术还允许极长的输入序列,并通过单个GPU,具有数千个GPU的高端集群或具有非常慢的以太网网络的低端集群释放硬件系统的能量。我们将(继续)进行快速创新,为深度学习训练突破了速度和规模的界限。”

编译via venturebeat、

https://www.microsoft.com/en-us/research/blog/deepspeed-extreme-scale-model-training-for-everyone/





来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69946223/viewspace-2722202/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
一个精通SAP供应链咨询却又对AI感兴趣的大叔

注册时间:2019-08-22

  • 博文量
    1338
  • 访问量
    723440