10月11日,英伟达公司和微软公司宣布了他们共同开发的全世界迄今为止所训练的最大、功能最强的单片转换器语言模型,这一语言模型是一个拥有高达5300亿个参数的 AI 模型,称为 Megatron-Turing 自然语言生成模型,简称为 MT-NLG(Megatron-Turing Natural Language Generation model)。
相比这两家公司之前分别各自开发训练的也是基于转换器的系统,也就是微软公司的 Turing-NLG 模型和英伟达公司的 Megatron-LM。这次两公司共同开发的 MT-NLG 模型功能强大了许多。MT-NLG 有着分布在105层的较之前三倍多的参数,整个系统更大更复杂。参考一下其他公司的最新的 AI 模型进行对比,可以更直观地了解 MT-NLG 的复杂度:OpenAI 的 GPT-3 模型有着1750亿个参数。
▲图 | 几个著名的自然语言模型的参数数量的对比(来源:英伟达网站)
在机器学习中,参数是从之前的历史训练数据中所学习到的模型部分。尤其是在语言处理领域,参数的数量和复杂程度之间的相关性很高。对于神经网络而言,一般来说,参数越多,系统越复杂通常意味着功能越强大,因为这样系统在训练过程中将会获得更多的训练数据,系统对于语言的理解也会随之更加丰富、细致和准确,甚至获得总结书籍以及完整编程写代码的能力。
与英伟达和微软之前各自的系统相比,MT-NLG 的优点在于更加擅长各种自然语言任务,例如自动完成句子、问答、阅读和推理、词义消岐等。更重要的是,它甚至还可以在几乎不需要事先微调的前提下就执行上面所说的这些任务,这也被称为少样本或零样本学习。
然而,语言模型变得越来越大所带来的除了更强大的功能,还给开发人员带来了难题:模型越大,训练也更困难,尤其是 MT-NLG 的模型以及数据的训练,必须同时跨多个芯片来存储和处理,因此人工智能研究员和工程师也必须想出各种技术和技巧来训练它们,并进行调整。
这次 MT-NLG 使用了英伟达的 Selene 超级计算机进行训练,该系统由560个 DGX A100 服务器组成,每个服务器包含8个 A100 GPU。
以上所有这数千个 GPU 都使用 NVLink 和 NVSwitch 相互连接,每个 GPU 都能够以每秒113万亿次浮点运算的速度运行,训练这些模型的成本非常高。在这里,英伟达和微软的工程师使用了微软的 DeepSpeed 深度学习库,它包含 PyTorch 代码,允许工程师在多个管道中并行填充更多数据。
通过英伟达 Megatron-LM 和微软 DeepSpeed 的合作,工程师们创建了一个不仅高效而且可扩展的3D 并行系统,它结合了数据、管道和基于张量切片的并行性,从而能更好地应对大型模型带来的挑战。
英伟达公司加速计算产品管理和..高级总监帕雷什·卡利亚(Paresh Kharya)和微软集团项目经理阿里·阿尔维(Ali Alvi)在博客文章中写道:“通过将张量切片和管道的并行性相结合,我们可以在最有效的情况下运行它们。具体来说,这一系统使用了英伟达 Megatron-LM 的张量切片来扩展节点内的模型,并使用了微软 DeepSpeed 的管道并行性来跨节点扩展模型。”
▲(来源:Pixabay)
推荐阅读
精彩活动
7 句话,预见 2032 年|萨蒂亚·纳德拉关于未来十年的判断
大家好,小娟今天来为大家解答繁星点点伴你入眠什么意思以下问题,繁星点点什么歌的歌词很多人还不知道,现在让我们一起来看看吧!1、意思是
大家好,小娟今天来为大家解答等边三角形面积以下问题,等边三角形面积公式已知边长很多人还不知道,现在让我们一起来看看吧!1、等边三角形
大家好,小乐今天来为大家解答湖南最好的大学以下问题,湖北最好的大学很多人还不知道,现在让我们一起来看看吧!1、湖南最好10所大学,相关
大家好,小乐今天来为大家解答荔枝英文以下问题,荔枝英文名很多人还不知道,现在让我们一起来看看吧!1、litchi 英 [ˈli:ˌtʃi:] 美 [ˈlitʃi]n. 荔枝
大家好,小豪今天来为大家解答百合cp本以下问题,百合cp本很多人还不知道,现在让我们一起来看看吧!1、某科学的超电磁炮(搞笑) 恋姬无双系
为轻易恢弘患者就诊,现将武汉知名中医张胜兵2024年5月出诊放置公示如下,请人人凭据需要自行选择就诊时间。如因特别情形或者更改出诊时间,请
提到肥西特色农产物你最先想到?米线、米饺、照样肥西老母鸡?若是你只知道这些那这个蒲月你必然要来一趟肥西这里的“肥西月月农”运动邀你
大家好,小伟今天来为大家解答绿瘦减肥药三亚药店有售吗以下问题,绿瘦减肥产品市场评论很多人还不知道,现在让我们一起来看看吧!1、三亚机
Copyright 2024 优质自媒体,让大家了解更多图文资讯!