侵权投诉

浪潮、英伟达微软相继发布2500亿、5300亿参数的巨量模型,超过GPT-3

Carol Li 2021-10-18 14:41 次阅读

由于模型越来越大,训练过程中硬件的优化变得尤为重要。从2019年下半年开始,各家分别开发出大规模并行训练、模型扩展技术,以期开发出更大的NLP模型。英伟达Megatron-LM、谷歌T5、微软Turing-NLG相继出现。

2020年6月OpenAI在发布了GPT-3,这是当时训练的最大模型,具有1750亿个参数。近段时间,浪潮、英伟达与微软相继发布2500亿参数、5300亿参数的巨量模型,超过GPT-3。

中国工程院院士王恩东认为,人工智能的大模型时代已经到来,利用先进算法,整合大规模数据,汇聚大量算力,训练出巨量人工智能模型是未来的发展方向……


英伟达与微软联合发布了5300亿参数的“威震天-图灵”

上周,英伟达与微软联合发布了5300亿参数的“威震天-图灵”自然语言生成模型(Megatron-TuringNLG)。据介绍,这样的量级不仅让它成为全球规模最大,同时也是性能最强的NLP模型。


训练过程一共使用了4480块英伟达A100 GPU,最终使该模型在一系列自然语言任务中——包括文本预测、阅读理解、常识推理、自然语言推理、词义消歧——都获得了前所未有的准确率。

此模型简称MT-NLG,是微软Turing NLG和英伟达Megatron-LM两者的“继任者”。Turing NLG由微软于2020年2月推出,参数为170亿;Megatron-LM来自英伟达,2019年8月推出,参数83亿。它俩在当时分别是第一、二大规模的Transfomer架构模型。

我们都知道大参数规模的语言模型效果会更好,但训练起来也很有挑战性,比如:即使是最大容量的GPU,也存不下如此规模的参数;如果不特别注意优化算法、软件和硬件堆栈,那么所需的大量计算操作可能会导致训练时间过长。

那这个参数已是GPT-3三倍的MT-NLG又是如何解决的呢?答案就是汲取“两家”所长,融合英伟达最先进的GPU加速训练设备,以及微软最先进的分布式学习系统,来提高训练速度。并用上千亿个token构建语料库,共同开发训练方法来优化效率和稳定性。

具体来说,通过借鉴英伟达Megatron-LM模型的GPU并行处理,以及微软开源的分布式训练框架DeepSpeed,创建3D并行系统。对于本文中这个5300亿个参数的模型,每个模型副本跨越280个NVIDIA A100 GPU,节点内采用Megatron-LM的8路张量切片(tensor-slicing),节点间采用35路管道并行(pipeline parallelism)。

然后再使用DeepSpeed的数据并行性进一步扩展到数千个GPU。最终在基于NVIDIA DGX SuperPOD的Selene超级计算机上完成混合精度训练。(该超级计算机由560个DGX A100服务器提供支持,每个DGX A100有8个 NVIDIA A100 80GB Tensor Core GPU,通过NVLink 和 NVSwitch相互完全连接)。

该模型使用了Transformer解码器的架构,层数、hidden dimension和attention head分别为 105、20480和128。训练所用数据集包括近20万本书的纯文本数据集Books3、问答网站Stack Exchange、维基百科、学术资源网站PubMed Abstracts、ArXiv、维基百科、GitHub等等,这些都是从他们先前搭建的Pile数据集中挑出的质量较高的子集。最终一共提取了2700亿个token。

浪潮发布2500亿参数的中文AI巨量模型“源1.0”

9月28日,浪潮人工智能研究院发布浪潮发布了2500亿参数的中文AI巨量模型“源1.0”。

“源1.0”不仅有高达5TB的全球最大中文高质量数据集,在总计算量和训练效率优化上都是空前的。源1.0几乎把近5年整个中文互联网的浩瀚内容全部读完,在收集并清洗数据后,最终获得5TB高质量数据,成为迄今业界最大的高质量中文数据集。

在语言智能方面,源1.0获得中文语言理解评测基准CLUE榜单零样本学习和小样本学习两类总榜冠军,获得小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务冠军。

“在数据量、参数规模与模型精度方面,源1.0均居全球之最。”浪潮人工智能研究院首席研究员吴韶华说。对标OpenAI的GPT-3,源1.0参数规模为2457亿,训练采用的中文数据集达5TB。相比GPT-3模型1750亿参数量和570GB训练数据集,源1.0参数规模领先40%,训练数据集规模领先近10倍。

“得益于我们设计模型时,对精度和计算性能的协同。”吴韶华说,“在算法上,我们解决了巨量模型训练不稳定的业界难题,提出稳定训练巨量模型的算法,打造了巨量模型推理方法创新;在数据方面,我们生成了迄今业界最大的高质量中文数据集;在算力上,我们通过算法与算力协同优化,极大提升了计算效率,在实现业界训练性能第一的同时,还达到了业界领先的精度。”

巨量模型是未来的发展方向

“认知智能是人工智能研究者追求的方向之一。”中国工程院院士王恩东告诉《中国科学报》,“除了加速深度学习技术,开发全新的算法范式研究方向外,大规模数据训练超大参数量的巨量模型也是未来发展方向,即利用先进的算法,整合大规模的数据,汇聚大量算力,训练出巨量人工智能模型。”

2020年6月,OpenAI发布了参数量高达1750亿的大模型GPT-3,该模型一推出就引起人工智能学界和业界的轰动。“语言模型是全球AI界的‘必争之地’。”一位人工智能研究领域的专家说,“参数规模大到远超我们想象的时候,会发生一些难以解释的现象。”

浪潮信息副总裁刘军同样认为,生命从简单进化到复杂,这种智能水平本身就是一种模型。如果把模型比作元宇宙中的生命,大模型的这种综合系统能力,可能会决定未来数字世界和智能世界里的智能水平。“人的神经元突触超过100万亿,而现有大模型的参数量还远远不够,所以我们还有很远路要走”。

伴随着人工智能应用广度与深度的不断提升,众多行业、诸多业务场景的智能化创新需求日益增多。然而当前大多数AI模型只能用于某一特定领域,通用性不强,这对AI技术提出了挑战,也限制了AI的产业化进程。

大模型在今天初露峥嵘绝非偶然。技术、算力、资源、需求等多因素的“风云际会”,让被AI业界视为“核力量”的大模型崭露头角。

电子发烧友综合报道,参考自量子位、浪潮服务器

收藏 人收藏
分享:

评论

相关推荐

国内外OTP单片机品牌大汇总

作者:芯片哥,来源:今日头条微信公众号:芯片之家(ID:chiphome-dy)OTP单片机,作为一....
发表于 11-25 20:06 8次 阅读
国内外OTP单片机品牌大汇总

浪潮信息创新运维管理解决方案,助力智算平台实现精确纳管

近年来,高校信息化建设突飞猛进,随之而来的运维和管理挑战也逐渐凸显,并愈发受到业界关注。为助力中南大....
的头像 鹰眼 发表于 11-25 10:35 362次 阅读
浪潮信息创新运维管理解决方案,助力智算平台实现精确纳管

【程序人生】学不到东西,不想呆在这家公司了!

1、聊一聊 找一份工作和找一个女朋友其实是一样的道理,一切都是缘分,如果磨合不来,那就分开吧! ....
发表于 11-24 15:06 6次 阅读
【程序人生】学不到东西,不想呆在这家公司了!

苹果起诉以色列安全公司NSO Group

近日,苹果公司正式对以色列间谍软件开发商NSO Group提起了公开诉讼,原因是他们用Pegasus....
的头像 lhl545545 发表于 11-24 14:40 443次 阅读

三星李在镕串访微软、谷歌 意欲加强技术合作

近日,三星集团公司的董事长李在镕对微软和谷歌两大科技公司的CEO进行了会面,三星公司正加快努力进一步....
的头像 lhl545545 发表于 11-24 14:20 440次 阅读

微软将收购中国元宇宙公司

微软将收购中国元宇宙公司。微软公司董事长在此前的会议上就表示对元宇宙十分感兴趣,随后描述了关于元宇宙....
的头像 lhl545545 发表于 11-23 10:52 625次 阅读

微软和Meta正式宣布进军元宇宙

 微软和Meta正式宣布进军元宇宙。今年十月份,Facebook公司正式改名为mate全力进军元宇宙....
的头像 lhl545545 发表于 11-23 10:36 351次 阅读

TOP500公布新一期的超级计算机排名 AMD和英伟达霸榜

电子发烧友网报道(文/周凯扬)在刚举办的SC21超算大会上,TOP500公布了新一期的超级计算机排名....
的头像 电子发烧友网 发表于 11-21 15:12 660次 阅读
TOP500公布新一期的超级计算机排名 AMD和英伟达霸榜

新一期超算排名AMD和英伟达霸榜

在刚举办的SC21超算大会上,TOP500公布了新一期的超级计算机排名。不过在前十这个范畴内,与今年....
的头像 电子发烧友网 发表于 11-21 15:11 554次 阅读

英伟达公布今年第三财季财报 挖矿芯片AI芯片市场冰火两重天

美国时间本周三,在股票收盘后,英伟达正式公布了今年第三财季财报。财报显示该季度英伟达营收达到71亿美....
的头像 电子发烧友网 发表于 11-21 15:03 379次 阅读

微软CEO称对元宇宙十分感兴趣

近日,微软公司CEO接受媒体的采访称对元宇宙非常感兴趣,称将把握像元宇宙这样的新发展机遇。同时也宣布....
的头像 lhl545545 发表于 11-20 10:58 518次 阅读

半导体企业营收预测公布,AMD、英伟达大涨,英特尔、索尼下滑

电子发烧友网报道(文/黄山明)近日,调研机构IC Insights推出了最新一版的《The McCl....
的头像 Simon观察 发表于 11-20 07:31 1278次 阅读
半导体企业营收预测公布,AMD、英伟达大涨,英特尔、索尼下滑

新一期超算排名公布,AMD和英伟达霸榜

新一期超算排名公布,AMD 和英伟达霸榜   在刚举办的SC21超算大会上,TOP500公布了新一期....
的头像 E4Life 发表于 11-19 09:42 1624次 阅读
新一期超算排名公布,AMD和英伟达霸榜

微软 Xbox部门主管考虑接班人计划

据外媒的消息透露,微软 Xbox 部门正在考虑接班人的计划确保长期良好发展,微软公司未来还将推出Xb....
的头像 lhl545545 发表于 11-16 17:29 525次 阅读

浪潮信息助力数字化转型,构建新型数据中心

在11月9日,IDTC2021浪潮存储数据科技峰会暨G6新品全国巡展在武汉举行,浪潮信息基于“存储即....
的头像 鹰眼 发表于 11-16 10:28 281次 阅读
浪潮信息助力数字化转型,构建新型数据中心

为什么很多单片机的工作电压是5V?

点击上方“大鱼机器人”,选择“置顶/星标公众号”福利干货,第一时间送达!5V来自于TTL电平,5为T....
发表于 11-15 15:36 18次 阅读
为什么很多单片机的工作电压是5V?

华为“元宇宙”相关专利曝光

电子发烧友网报道(文/吴子鹏)作为虚拟现实交互的载体,元宇宙近来的火热程度可以说在科技圈无可比肩,甚....
的头像 电子发烧友网 发表于 11-13 10:21 873次 阅读

不只是元宇宙 数字孪生还能解决5G难题

电子发烧友网报道(文/周凯扬)相信今年不少人都中了“虚拟老黄”的障眼法,让英伟达的Omniverse....
的头像 电子发烧友网 发表于 11-13 09:55 532次 阅读

微软元宇宙什么意思

微软元宇宙什么意思?2021年被称为元宇宙元年,互联网巨头和游戏公司、初创公司早有布局元宇宙,目前微....
的头像 lhl545545 发表于 11-12 10:48 1058次 阅读

不只是元宇宙,数字孪生还能解决5G难题

相信今年不少人都中了“虚拟老黄”的障眼法,让英伟达的Omniverse也迅速被视为元宇宙的开发平台之....
的头像 E4Life 发表于 11-12 09:40 2899次 阅读
不只是元宇宙,数字孪生还能解决5G难题

华为“元宇宙”相关专利曝光!从英伟达“数字人”到华为“星光巨塔”,巨头态度各不同

作为虚拟现实交互的载体,元宇宙近来的火热程度可以说在科技圈无可比肩,甚至连脸书的母公司都直接更名为M....
的头像 Felix分析 发表于 11-12 06:50 2141次 阅读
华为“元宇宙”相关专利曝光!从英伟达“数字人”到华为“星光巨塔”,巨头态度各不同

英伟达CEO认为全球芯片短缺问题不会很快结束

近日,英伟达CEO黄仁勋在接受媒体的访问时称:现在全球芯片短缺问题还在继续,全球芯片短缺问题不会很快....
的头像 lhl545545 发表于 11-11 16:36 1439次 阅读

RISC-V架构芯片的相关资料分享

作为国内RISC-V架构芯片出货量最大的IC设计公司,中科蓝讯将在2020 RT-Thread 开发者大会上首度面向通用市场发布其自主...
发表于 11-11 09:09 101次 阅读

微软Edge浏览器稳定版现可在 Linux 上使用

Linux用户能够使用微软基于Chromium的Edge浏览器已经有一段时间了,但一直只是Dev B....
的头像 Linux爱好者 发表于 11-09 10:37 206次 阅读
微软Edge浏览器稳定版现可在 Linux 上使用

中科蓝讯将首度面向通用市场发布其自主RISC-V内核MCU芯片

作为国内RISC-V架构芯片出货量最大的IC设计公司,中科蓝讯将在2020 RT-Thread 开发....
发表于 11-06 11:05 44次 阅读
中科蓝讯将首度面向通用市场发布其自主RISC-V内核MCU芯片

ea9ad29ac33ea4687646bcc03985e28a

嵌入式系统已经无处不在。IDC曾预测中国的嵌入式系统市场目前正在以年均30%的高速度增长。但是,权威....
发表于 11-02 17:51 31次 阅读
ea9ad29ac33ea4687646bcc03985e28a

浪潮存储推出新一代G6分布式存储平台加速数字化转型

经过多年的产品打磨,浪潮分布式存储产品技术达到国际领先水平,在今年SPC-1国际基准测试中,浪潮分布....
的头像 浪潮存储 发表于 11-02 15:44 1601次 阅读

元宇宙最受益的A股公司

元宇宙最受益的A股公司有中青宝、汤姆猫、数码视讯、丝路视觉,这四个公司被称为四大元宇宙的黑马。然而,....
的头像 lhl545545 发表于 11-02 10:10 7647次 阅读

IAR Systems和Secure Thingz宣布推出安全的开发和量产平台,以加速向微软Azure IoT迁移

来自IAR Systems和Secure Thingz的增强型解决方案可支持大批量的、安全的设备的开....
发表于 11-01 16:31 91次 阅读

三个维度读懂Azure数字孪生

小编说:欢迎来到微软“进博会”特辑!2021年中国国际进口博览会即将开始。今年以来,元宇宙(Meta....
的头像 微软科技 发表于 10-29 15:08 433次 阅读

志在续写服务器般传奇的浪潮存储

“浪潮信息是云数据中心IT基础设施整体解决方案提供商。浪潮存储的表现非常亮眼,以超过100%的市场增....
的头像 浪潮存储 发表于 10-29 15:07 1782次 阅读

英特尔、谷歌联手推进生物医学研究

借助谷歌在工程和英特尔在优化方面的优势,微软和Verily共同开发了在云基础架构之上的Terra平台....
的头像 lhl545545 发表于 10-29 15:06 1997次 阅读

英伟达400亿美元收购Arm交易遭欧盟正式调查

根据外媒的消息称,欧盟委员会近日正式宣布将对美国芯片巨头英伟达收购英国芯片设计公司Arm的交易展开正....
的头像 lhl545545 发表于 10-29 09:57 427次 阅读

【国产MCU移植】看看有没有你需要的,一起来查漏补缺吧!(附已报名的硬件)...

2020年下半年开始,史无前例的芯片缺货潮拉开大幕。供需失衡之下,芯片的交期和价格不断拉升,其中以国....
发表于 10-29 09:21 53次 阅读
【国产MCU移植】看看有没有你需要的,一起来查漏补缺吧!(附已报名的硬件)...

把握MCU趋势,别错过NXP CONNECTS 2020!

了解技术走向和应用趋势行业龙头峰会是最好的切入点所以嵌友一定不要错过10月21日-22日的NXP C....
发表于 10-29 09:06 15次 阅读
把握MCU趋势,别错过NXP CONNECTS 2020!

最近缺货涨价的MCU有这些国产可以替代对标国外!(TOP 60)

点击上方“大鱼机器人”,选择“置顶/星标公众号”福利干货,第一时间送达据业界透露,最近一些MCU大厂....
发表于 10-28 19:36 35次 阅读
最近缺货涨价的MCU有这些国产可以替代对标国外!(TOP 60)

物联网应用的安全,如何通过MCU来保证?

在嵌入式设计中实现安全功能似乎是一项艰巨的任务,专门提供安全功能的微控制器 (MCU) 因此应运而生....
发表于 10-28 18:51 24次 阅读
物联网应用的安全,如何通过MCU来保证?

第十六届智能车竞赛MCU这么多,该怎么办?别慌,有人来帮忙

在第十六届全国大学生智能汽车竞赛中引入了多种MCU类型,包括有Infineon, STC, WCH,....
发表于 10-28 18:36 30次 阅读
第十六届智能车竞赛MCU这么多,该怎么办?别慌,有人来帮忙

内嵌专业接口的RISC-V架构MCU,谁家有?

前一阵,苹果推出了M1处理器,相比关注具体指标,业内其实更关心M1推出后会引领产业往哪个方向发展,不....
发表于 10-28 17:06 59次 阅读
内嵌专业接口的RISC-V架构MCU,谁家有?

MCU支持AI功能的多种原因~

AI:Artificial Intelligence,即人工智能。AI与我们息息相关,手机导航、语音....
发表于 10-28 16:06 37次 阅读
MCU支持AI功能的多种原因~

瑞萨推出64位1.2GHz双核MPU,树莓派进军MCU领域

关注+星标公众号,不错过精彩内容作者 | strongerHuang微信公众号|嵌入式专栏MCU:M....
发表于 10-28 12:36 22次 阅读
瑞萨推出64位1.2GHz双核MPU,树莓派进军MCU领域

树莓派也出MCU了?树莓派Pico来了!

关注、星标公众号,直达精彩内容1月22日,树莓派基金会最新发布一款低成本、高性能的微控制器开发板Ra....
发表于 10-28 10:36 45次 阅读
树莓派也出MCU了?树莓派Pico来了!

MCU国产有哪些可以替代国外?

国内MCU应用领域多集中在低端电子产品,中高端电子产品市场还在外企手里总体看国产MCU,不论是市场份....
发表于 10-26 10:51 57次 阅读
MCU国产有哪些可以替代国外?

微软最新写代码神器代码之旅

【导语】:CodeTour(代码之旅)是微软官方开发的 VS Code 扩展,允许记录和回放代码的演....
的头像 Linux爱好者 发表于 10-26 10:00 344次 阅读

微软官方开发的VS Code扩展介绍

【导语】:CodeTour(代码之旅)是微软官方开发的 VS Code 扩展,允许记录和回放代码的演....
的头像 数据分析与开发 发表于 10-22 17:13 467次 阅读

嵌入式行业真的没有前途吗?

点击上方“大鱼机器人”,选择“置顶/星标公众号”福利干货,第一时间送达!嵌入式行业前途”是永恒的话题....
发表于 10-20 12:35 42次 阅读
嵌入式行业真的没有前途吗?

NVIDIA助力踏歌智行打造矿区智能驾驶引擎

作为英伟达初创加速计划会员企业,北京踏歌智行科技有限公司是一家专注于露天矿用车无人驾驶技术研究、产品....
的头像 NVIDIA英伟达企业解决方案 发表于 10-20 09:19 1305次 阅读

AR眼镜进入军事没那么容易,微软200万亿美元订单延期交付

AR技术将真实世界信息和虚拟世界信息进行“无缝”集成,并通过AR眼镜等终端设备给消费者带来沉浸式体验....
的头像 Monika观察 发表于 10-17 10:31 1349次 阅读
AR眼镜进入军事没那么容易,微软200万亿美元订单延期交付

微软将关闭领英中国服务系谣言 专注干提供“连接职业机会”的价值

 领英官方微博回应这属于不实消息。
的头像 西西 发表于 10-15 10:50 466次 阅读

微软将关闭领英中国服务系谣言

近日,索尼公司被涉嫌利用虚假在线评论在网络上售卖产品将罚款28.2万元。此前亚马逊以及沃尔玛也出现虚....
的头像 lhl545545 发表于 10-15 09:46 947次 阅读

英伟达 VS. 英特尔:后浪来袭!精选资料分享

上周三,也就是2020年7月8日,是个值得在历史上留下一笔的日子。在这一天美股收盘之后,英伟达的股价收涨2.3%,来到404美元,这....
发表于 07-29 07:07 101次 阅读

超越英伟达Pascal五倍?揭秘英特尔深度学习芯片架构 精选资料推荐

在被英特尔收购两年之后,深度学习芯片公司 Nervana 终于准备将代号为「Lake Crest」的架构转化为实际的产品了。   ...
发表于 07-26 07:04 202次 阅读

视觉推理新杀器!英特尔新一代VPU性能翻10倍,反超英伟达 精选资料分享

点击我爱计算机视觉标星,更快获取CVML新技术本文转自新智元。新智元报道来源:venturebeat编辑:肖琴【新智元导读】英特尔今...
发表于 07-26 06:48 101次 阅读

嵌入式的未来是什么?

有数据显示,预计到2012年全球将有30亿个嵌入式设备交付。未来软件将向服务和嵌入式两个方向延伸,嵌入式软件领域正成为全球巨头...
发表于 10-31 08:00 843次 阅读

微软嵌入式在“软件+服务”化这个方向发展到了什么程度?

嵌入式系统在微软业务中地位日益提升,微软将继续加大其向“软件+服务”平台转化的力度。 ...
发表于 10-31 07:47 785次 阅读

WinCE启动为什么会频繁死机?

WindowsCE是微软公司嵌入式、移动计算平台的基础,它是一个开放的、可升级的32位嵌入式操作系统,是基于掌上型电脑类的电子设...
发表于 08-21 06:31 834次 阅读

为什么微软雅黑48*48字体会显示失败

大家好,想显示微软雅黑48*48字体,结果是乱码。32*32宋体成功,24*24微软雅黑成功。 难道emWin显示汉字最大就32*32点阵?请大...
发表于 07-24 03:35 1080次 阅读

公共UDDI的挑战

据国外媒体报道,由微软与IBM等大公司力推的网络服务目录UDDI计划迟迟不见起色,厂商不仅要克服技术障碍,还得面对市场转...
发表于 07-19 08:22 819次 阅读

微软SMS2003软件的部署

SMS2003又是微软的一个令人兴奋的软件,微软非常巧妙的将SMS 2003与AD进行了整合,非常方便的实现了对域环境下资源的管理...
发表于 07-19 06:19 821次 阅读